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为 什么 写 这 本 书 


计算 技术 已 经 改变 了 我 们 的 了 
门 的 话题 之 一 ， 它 通过 整合 资源 ， 为 降低 成 本 
台 。 这 种 低 成 本 、 高 扩展 、 高 性 能 的 特点 促使 
的 面貌 。 社 会 各 界 对 云 计算 的 广泛 研究 和 应 
校 十 分 重视 对 云 计 算 技 术 的 研究 和 投入 ; E N 
算 产 品 上 投入 了 大 量 的 资源 。 这 些 研 究 和 应 
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现 ， 传 统 的 信息 服务 产品 向 云 计 算 模式 转型 。 


Hadoop 作 为 Apache 基 金 会 的 开源 项 目 ， 是 云 计算 研究 和 应 
Hadoop 分 布 式 框架 为 开发 者 提供 了 一 个 分 布 式 系统 的 基础 架构 ， 











统 底层 细节 的 情况 下 开发 分 布 式 的 应 


， 充 分 利 




















资源 和 计算 资源 ， 实 现 基于 海量 数据 的 高 速 运算 和 存储 。 


在 编写 本 书 第 一 版 时 ， 鉴 于 Hadoop 技 术 本 身 和 应 
大 ， 而 关于 Hadoop 的 参考 资料 又 非常 少 ， 笔 者 根据 自己 的 实际 研究 和 使 
从 基础 出 发 ， 为 读者 全 面 呈现 了 Hadoop 的 相关 多 
工具 书 。 但 是 时 至 今日 ，Hadoo 

















需求 也 从 入 门 发 展 到 更 力 


势 ， 了 解 Hadoop 在 企业 中 的 应 





RAL 














[ 作 、 学 习 和 生活 。 分 布 式 的 云 计算 技术 是 当下 IT 领域 最 热 
0 能 源 消耗 提供 了 一 种 简化 、 集 中 的 计算 平 
其 迅速 发 展 ， 遍 地 开发 ， 悄 然 改变 着 整个 行业 
无 疑 证 明了 这 一 点 : 
业界 ， 各 大 IT 公 司 
储 动 与 云 计 算 相 关 








在 学 术 界 ， 政 府 和 很 多 高 
也 在 研究 和 开发 相关 的 云 计 
的 新 兴 技 术 和 产品 不 断 涌 














最 具 代表 性 的 产品 。 





由 Hadoop 统 一 

















户 可 以 在 不 了 解 分 布 式 系 
忆 来 的 集群 存储 资源 、 网 络 





环境 较为 复杂 ， 入 门 和 实践 难度 较 











也 了 解 Hadoop 的 实现 细节 



































经 历 ， 理 论 与 实践 








识 ， 旨 在 为 Hadoop 学 习 者 提供 一 本 
p 的 版 本 已 从 本 书 第 一 版 介绍 的 0.20 升 级 至 正式 版 1.0， 读 者 的 
， 了 解 Hadoop 的 更 新 和 发 展 的 趋 

。 虽 然 本 书 第 一 版 受到 广大 Hadoop 学 习 者 的 欢迎 ， 但 是 为 








了 保持 对 最 新 版 Hadoop 的 支持 ， 进 一 步 满 足 读者 的 需求 ， 继 续 推动 Hadoop 技 术 在 国内 的 普 








及 和 发 展 ， 笔 者 不 惜 时 间 


和 精力 ， 搜 集资 料 ， 亲 自 实 践 ， 编 写 了 本 书 第 二 版 。 


第 2 版 与 第 1 版 的 区 别 








基于 Hadoop 1.0 版 本 和 相关 项 目的 最 新 版 ， 本 书 在 第 1 版 的 基础 上 进行 了 更 新 和 调整 : 


每 章 都 增加 了 新 内 容 〈 如 第 1 章 增加 了 与 Hadoop 安 全 相关 的 知识 ， 第 2 增加 了 在 Max OS 
X 系 统 上 安装 Hadoop 的 介绍 ， 第 9 章 增加 了 WebHDFS 等 ) ; 


部 分 章节 深入 剖析 了 Hadoop 源 码 ; 


增加 了 对 Hadoop 接 口 及 实践 方面 的 介绍 〈 附 录 C 和 附录 D) ; 


增加 了 对 下 一 代 MapReduce 的 介绍 (第 8 章 ); 














将 企业 应 用 介绍 移 到 本 书 最 后 并 更 新 了 内 容 (第 19 章 ); 








qo 


增加 了 对 Hadoop 安 装 和 代码 执行 的 集中 介绍 〈 附 录 B) 。 








本 书面 向 的 读者 


在 编写 本 书 时 ， 笔 者 力图 使 不 同 背 景 、 职 业 和 层次 的 读者 都 能 从 这 本 书 中 获 益 。 

















如 果 你 是 专业 技术 人 员 ， 本 书 将 带领 你 深入 云 计算 的 世界 ， 全 面 掌握 Hadoop 及 其 相关 技 
术 细 节 ， 帮 助 你 使 用 Hadoop 技 术 解 决 当前 面临 的 问题 。 


























如 果 你 是 系统 架构 人 员 ， 本 书 将 成 为 你 搭建 Hadoop 集 群 、 管 理 集群 ， 并 迅速 定位 和 解决 
问题 的 工具 书 。 











如 果 你 是 高 等 院 校 计算 机 及 相关 专业 的 学 生 ， 本 书 将 为 你 在 课堂 之 外 了 解 最 新 的 IT 技术 
打开 了 一 扇 窗户 ， 帮 助 你 拓宽 视野 ， 完 善 知 识 结 构 ， 为 迎接 未 来 的 挑战 做 好 知识 储备 。 














在 学 习 本 书 之 前 ， 大 家 应 该 有 具有 如 下 的 基础 : 





要 有 一 定 的 分 布 式 系统 的 基础 知识 ， 对 文件 系统 的 基本 操作 有 一 定 的 了 解 。 


要 有 一 定 的 Linux 操 作 系统 的 基础 知识 。 











有 较 好 的 编程 基础 和 阅读 代码 的 能 力 ， 尤 其 是 要 能 够 熟练 使 用 Java 语 言 。 











对 数据 库 、 数 据 仓 库 、 系 统 监 控 ， 以 及 网 络 仆 虫 等 知识 最 好 也 能 有 一 些 了 解 。 





如 何 阅读 本 书 


从 整体 内 容 上 讲 ， 本 书包 括 19 章 和 4 个 附录 。 前 10 章 、 第 18 章 、 第 19 章 和 4 个 附录 主要 介 
绍 了 Hadoop 背 景 知识 、Hadoop 集 群 安装 和 代码 执行 、MapReduce 机 制 及 编程 知识 、HDFS 实 
现 细节 及 管理 知识 、Hadoop 应 用 。 第 11 章 至 第 17 章 结合 最 新 版 本 详细 介绍 了 与 Hadoop 相 关 
的 其 他 项 目 ， 分 别 为 Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chuleva， 以 备 读者 扩 
展 知识 面 之 












































在 阅读 本 书 时 ， 笔 者 建议 大 家 先 系统 地 学 习 Hadoop 部 分 的 理论 知识 〈 第 1 章 、 第 3 章 、 第 
6 章 至 第 10 章 ) ， 这 样 可 对 Hadoop 的 核心 内 容 和 实现 机 制 有 一 个 很 好 的 理解 。 在 此 基础 上 ， 
读者 可 进一步 学 习 Hadoop 部 分 的 实践 知识 〈 第 2 章 、 第 4 章 、 第 5 章 、 第 18 章 、 第 19 章 和 4 个 附 








录 ) ， 尝 试 搭建 自己 的 Hadoop 集 群 ， 编 写 并 运行 自己 的 MapReduce 代 码 。 对 于 本 书 中 关于 

Hadoop 相 关 项 目的 介绍 ， 大 家 可 以 有 选择 地 学 习 。 在 内 容 的 编排 上 ， 各 章 的 知识 点 是 相对 独 
立 的 ， 是 并 行 的 关系 ， 因 此 大 家 可 以 有 选择 地 进行 学 习 。 当 然 ， 如 果 时 间 人 允许 ， 还 是 建议 大 
家 系统 地 学 习 全 书 的 内 容 ， 这 样 能 够 对 Hadoop 系 统 的 机 制 有 一 个 完整 而 系统 的 理解 ， 为 今后 
深入 地 研究 和 实践 Hadoop 及 云 计算 技术 打下 坚实 的 基础 。 





























另外 ， 笔 者 希望 大 家 在 学 习 本 书 时 能 一 边 阅 读 ， 一 边 根 据 书 中 的 指导 动手 实践 ， 亲 自 实 
践 本 书 中 所 给 出 的 编程 范例 。 例 如 ， 先 搭建 一 个 自己 的 云 平 台 ， 如 果 条 件 受 限 ， 可 以 选择 伪 
分 布 的 方式 。 




















在 线 资 源 及 勘误 


在 本 书 的 附录 中 ， 提 供 了 一 个 基于 Hadoop 的 云 计算 在 线 测试 平台 http: /cloud- 
computing.ruc.edu.cn) ， 大 家 可 以 先 注册 一 个 免费 账户 ， 然 后 即 可 体验 Hadoop 平 台 ， 通 过 该 
平台 大 家 可 在 线 编写 MapReduce 应 用 并 进行 自动 验证 。 如 果 大 家 希望 获得 该 平台 的 验证 码 ， 
或 者 希望 获得 完全 编程 测试 和 理论 测试 的 权限 ， 请 发 邮件 到 jiahenglu@gmaiLcom 。 读 者 也 可 
访问 Hadoop 的 官方 网 站 (hadoop.apache.org) 阅读 官方 介绍 文档 ， 下 载 学 习 示例 代码 。 






































在 本 书 的 撰写 和 相关 技术 的 研究 中 ， 尽 管 笔者 投入 了 大 量 的 精力 、 付 出 了 艰辛 的 努力 ， 
但 是 受 知识 水 平 所 限 ， 书 中 存在 不 足 和 玻 漏 之 处 在 所 难免 ， 奶 请 大 家 批评 指正 。 如 果 有 任何 
问题 和 建议 ， 可 发 送 电子 邮件 至 jiahenglu@gmailLcom 或 jiahenglu@ruc.edu.cn。 
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Hadoop 简 介 


1.1 什么 是 Hadoop 


1.1.1 Hadoop 概 述 


Hadoop 是 Apache 软 件 基金 会 旗下 的 一 个 开源 分 布 式 计算 平台 。 以 Hadoop 分 布 式 文件 系 
统 (Hadoop Distributed File System, HDFS) 和 MapReduce (Google MapReduce 的 开源 实现 ) 
为 核心 的 Hadoop 为 用 户 提供 了 系统 底层 细节 透明 的 分 布 式 基础 架构 。HDFS 的 高 容错 性 、 高 
伸缩 性 等 优点 允许 用 户 将 Hadoop 部 署 在 低廉 的 硬件 上 ， 形 成 分 布 式 系统 ，MapReduce 分 布 式 
编程 模型 多 许 用 户 在 不 了 解 分 布 式 系统 底层 细节 的 情况 下 开发 并 行 应 用 程序 。 所 以 用 户 可 以 
利用 Hadoop 轻 松 地 组 织 计算 机 资源 ， 从 而 搭建 自己 的 分 布 式 计算 平台 ， 并 且 可 以 充分 利用 集 
群 的 计算 和 存储 能 力 ， 完 成 海量 数据 的 处 理 。 经 过 业界 和 学 术 界 长 达 10 年 的 锤炼 ， 目 育 
Hadoop 1.0.1 已 经 趋 于 完善 ， 在 实际 的 数据 处 理 和 分 析 任 务 中 担当 着 不 可 蔡 代 的 角色 。 















































































































































1.1.2 ”Hadoop 的 历史 


Hadoop 的 源头 是 Apache Nutch， 该 项 目 始 于 2002 年 ， 是 Apache Lucene 的 子 项 目 之 一 。 


2004 年 ，Google 在 “操作 系统 设计 与 实现 ”(Operating System Design and Implementation, 


OSDI) 会 议 上 公开 发 表 了 题 为 MapReduce: Simplifed Data Processing on Large 
Clusters ( (MapReduce: 简化 大 规模 集群 上 的 数据 处 理 》) 的 论文 之 后 ， 受 到 启发 的 Doug 
Cutting 等 人 开始 党 试 实现 MapReduce 计 算 框架 ， 并 将 它 与 NDFS (Nutch Distributed File 








A 











System) 结合 ， 











以 支持 Nutch 引 擎 的 主要 算法 。 由 于 NDFS 和 MapReduce 在 Nutch 引 擎 中 有 








着 良好 的 应 用 ， 所 以 它们 于 2006 年 2 月 被 分 离 出 来 ， 成 为 一 套 完 整 而 独立 的 软件 ， 并 命名 为 








Hadoop。 到 了 2008 年 年 初 ，Hadoop 已 成 为 Apache 的 顶级 项 目 ， 包 含 众多 子 项 目 。 它 被 应 月 


到 包括 Yahoo! 在 
MapReduce 子 项 目 




















内 的 很 多 互联 网 公司 。 现 在 的 Hadoop1.0.1 版 本 已 经 发 展 成 为 包含 HDFS、 
， 与 Pig、ZooKeeper、Hive、HBase 等 项 目 相关 的 大 型 应 用 工程 。 





























1.1.3 ”Hadoop 的 功能 与 作 

















我 们 为 什么 需要 Hadoop 呢 ?众所周知 ， 现 代 社 会 的 信息 增长 速度 很 快 ， 这 些 信息 中 又 积 
累 着 大 量 数据 ， 其 中 包括 个 人 数据 和 工业 数据 。 预 计 到 2020 年 ， 每 年 产生 的 数字 信息 中 将 会 
有 超过 1/3 的 内 容 驻 留 在 云 平台 中 或 借助 云 平台 处 理 。 我 们 需要 对 这 些 数据 进行 分 析 处 理 ， 以 


























获取 更 多 有 价值 的 信息 。 那 么 我 们 如 何 高 效 地 存储 管理 这 些 数据 、 如 何 分 析 这 些 数据 呢 ? 这 
































时 可 以 选用 Hadoop 系 统 。 在 处 理 这 类 问题 时 ， 它 采用 分 布 式 存储 方式 来 提高 读 写 速度 和 扩大 
存储 容量 ， 采 用 MapReduce 整 合 分 布 式 文件 系统 上 的 数据 ， 保 证 高 速 分 析 处 理 数据 ， 与 此 同 
时 还 采用 存储 元 余数 据 来 保证 数据 的 安全 性 。 












































Hadoop 中 的 HDFS 具 有 高 容错 性 ， 并 且 是 基于 Java 语 言 开发 的 ， 这 使 得 Hadoop 可 以 部 署 
在 低廉 的 计算 机 集群 中 ， 同 时 不 限于 某 个 操作 系统 。Hadoop 中 HDFS 的 数据 管理 能 力 、 

MapReduce 处 理 任务 时 的 高 效率 以 及 它 的 开源 特性 ， 使 其 在 同类 分 布 式 系统 中 大 放 异 彩 ， 并 
在 众多 行业 和 科研 领域 中 被 广泛 应 






























































1.1.4 Hadoop 的 优势 



































Hadoop 是 一 个 能 够 让 用 户 轻松 架构 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 轻松 地 在 


























Hadoop 上 开发 运行 处 理 海量 数据 的 应 用 程序 。 它 主要 有 以 














下 几 个 优点 : 


高 可 靠 性 。Hadoop 按 位 存储 和 处 理 数据 的 能 力 值得 人 们 信赖 。 











高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集 簇 间 分 配 数据 
便 地 扩展 到 数 以 千 计 的 节点 中 。 























高 效 性 。Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 以 
处 理 速度 非常 快 。 








高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 份 副本 ， 并 
配 。 


完成 计算 任务 的 ， 这 些 外 





RETTU 




















保证 各 个 节点 的 动态 平衡 ， 因 此 其 





且 能 够 自动 将 失败 的 任务 重新 分 

















1.1.5 Hadoop 应 用 现状 和 发 展 趋势 




















由 于 Hadoop 优 势 突出 ， 基 于 Hadoop 的 应 用 已 经 遍地 开花 ， 尤 其 是 在 互联 网 领域 。 
Yahoo! 通过 集群 运行 Hadoop， 用 以 支持 广告 系统 和 Web 搜 索 的 研究 ，Facebook 借 助 集群 过 
行 Hadoop 来 支持 其 数据 分 析 和 机 器 学 习 ; 搜索 引擎 公司 百度 则 使 用 Hadoop 进 行 搜索 日 志 分 
析 和 网 页 数据 挖掘 工作 ;淘宝 的 Hadoop 系 统 用 于 存储 并 处 理 电子 商务 交易 的 相关 数据 ;中 国 
移动 研究 院 基于 Hadoop 的 “大 云 ”(BigCloud) 系统 对 数据 进行 分 析 并 对 外 提供 服务 。 
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2008 年 2 月， 作为 Hadoop 最 大 贡献 者 的 Yahoo! 构建 了 当时 最 大 规模 的 Hadoop 应 用 。 他 
们 在 2000 个 节点 上 面 执行 了 超过 1 万 个 Hadoop 虚 拟 机 器 来 处 理 超过 5PB 的 网 页 内 容 ， 分 析 大 


约 1 兆 个 网 络 连接 之 间 的 网 页 索引 资料 。 这 些 网 页 索引 资料 压缩 后 超过 300TB。Yahoo! 正 是 
基于 这 些 为 用 户 提供 了 高 质量 的 搜索 服务 。 


























Hadoop 目 前 已 经 取得 了 非常 突出 的 成 绩 。 随 着 互联 网 的 发 展 ， 新 的 业务 模式 还 将 不 断 涌 
现 ，Hadoop 的 应 用 也 会 从 互联 网 领域 向 电信 、 电 子 商 务 、 银 行 、 生 物 制药 等 领域 拓展 。 相 信 
在 未 来 ，Hadoop 将 会 在 更 多 的 领域 中 扮演 幕后 英雄 ， 为 我 们 提供 更 加 快捷 优质 的 服务 。 





















































1.2 ”Hadoop 项 目 及 其 结构 





现在 Hadoop 已 经 发 展 成 为 包含 很 多 项 目的 集合 。 虽 然 其 














核心 内 容 是 MapReduce 和 


Hadoop 分 布 式 文件 系统 ， 但 与 Hadoop 相 关 的 Common、Avro、Chukwa、Hive、HBase 等 项 目 





也 是 不 可 或 缺 的 。 它 们 提供 了 互补 性 服务 或 在 核心 
Hadoop 的 项 目 结构 图 。 








层 上 提供 了 更 高 层 的 服务 。 


图 








1-1% 




















下 面 将 对 Hadoop 的 各 个 关联 项 目 进行 更 详细 的 


介绍 。 





图 1-1 Hadoop 项 目 结构 图 

















1) Common: Common 是 为 Hadoop 其 他 子 项 目 提供 支持 的 常用 工具 ， 它 主要 包括 
EileSystem、RPC 和 串 行 化 库 。 它 们 为 在 廉价 硬件 上 搭建 云 计算 环境 提供 基本 的 服务 ， 并 且 














会 为 运行 在 该 平台 上 的 软件 开发 提供 所 需 的 API。 

















2) Avro: Avro 是 用 于 数据 序列 化 的 系统 。 它 提供 了 了 
的 二 进 制 数 据 格式 、 存 储 持久 性 数据 的 文件 集 、 远 程 调 























由 






































功能 。 其 中 代码 生成 器 既 不 需要 读 写 文件 数据 ， 也 不 需要 使 用 或 实现 RPC 协 议 ， 














可 选 的 对 静态 类 型 语言 的 实现 。 








它 只 是 一 


富 的 数据 结构 类 型 、 快 速 可 压缩 
RPC 的 功能 和 简单 的 动态 语言 集成 


个 








Avro 系统 依赖 于 模式 〈Schema ) ， 数 据 的 读 和 写 是 在 模式 之 下 完成 的 。 这 样 可 以 减少 写 














入 数据 的 开销 ， 提 高 序列 化 的 速度 并 缩减 其 大 小 ， 同 时 ， 也 可 以 方便 动态 脚本 语言 的 使 


























$ 








为 数据 连同 其 








在 RPC 中 ， 
民 务 端 拥 有 彼 














Avro 系统 的 客户 端 和 服务 端 通过 握 了 
全 部 的 模式 时 ， 不 同 模式 下 相同 命名 字段 、 丢 失 字段 和 附加 字段 等 信息 的 


模式 都 是 自 描述 的 。 








协议 进行 模式 的 交换 ， 


因 








此 当 客户 端 和 











致 性 问题 就 得 到 了 很 好 的 解决 。 


3) MapReduce: Map 


Reduce 是 一 种 编程 模型 ， 

















于 大 规模 数据 集 〈 大 于 1TB) 的 并 行 运 








算 。 WU CMap) 、 化 简 Reduce) 的 概念 和 它们 的 主要 思想 都 是 从 函数 式 编程 语言 中 借鉴 


而 来 的 。 它 极 大 地 方便 了 编程 人 员 一 即使 在 不 了 解 分 布 式 并 
的 程序 运行 在 分 布 式 系统 上 。MapReduce 在 执行 时 先 


值 对 映射 成 一 组 新 的 键 值 开 


进行 处 理 后 再 输出 键 值 对 作为 





图 1-2 是 MapReduce 的 


节 。 


输入 数据 | awon | 


数据 片 且 


任务 处 理 流程 图 ， 它 
Map 上 、 再 将 Map 的 结果 合并 


|(key.valuc) 








首 定 一 个 Map 





F 到 Reduce、 然 后 进行 处 理 的 输出 过 程 。 





= | 


[ key.valuc 


shuffle | 


(key, valuc_list 


reduce 





fF 行 编程 的 情况 下 ， 也 可 以 将 自己 


CBR) 函数 ， 把 输入 键 
ley 下 的 所 有 value 





展示 了 MapReduce 程 序 将 输入 划分 到 不 同 的 


详细 介绍 请 参考 本 章 1.3 


| 输出 数据 


{Key. value’) 
































做 据 片 同 » |(kcy.valuc) > (ey.value » ((key.valuc_list}}——» [key. value’) —» 
ERKE fkey.valuc) (Keywalue)) (Cov in) [Eey value) 


图 


4) HDFS: HDFS 是 一 个 


1-2 MapReduce 的 任务 处 理 流程 图 





分 布 式 文件 系统 。 因 











为 HDFS 具 有 高 容错 1 





ME (fault-tolerent) 的 特 


点 ， 所 以 它 可 以 设计 部 署 在 低廉 〈low-cost) 的 硬件 上 。 它 可 以 通过 提供 高 吞吐 率 high 

















throughput) 来 访问 应 用 程 启 








的 数据 ， 适 合 那些 有 着 超大 数据 集 的 应 








可 移植 操作 系统 接口 (POSIX, Portable Operating System Interface ) 


以 流 的 形式 访问 文件 系统 中 的 数据 。HDFS 原 本 是 开源 的 Apac 








程序 。HDFS 放 宽 了 对 
的 要求 ， 这 样 可 以 实现 














emi H 


Nutch 的 基础 结构 ， 最 后 


它 却 成 为 了 Hadoop 基 础 架构 之 一 。 


以 下 几 个 方面 是 HDFS 的 设计 目标 : 








检测 和 快速 恢复 硬件 故障 。 硬 件 故障 是 计算 机 常见 的 问题 。 整 个 HDFS 系 统 由 数 百 甚至 
数 千 个 存储 着 数据 文件 的 服务 器 组 成 。 而 如 此 多 的 服务 器 则 意味 着 高 故障 率 ， 因 此 ， 故 障 的 
愉 测 和 快速 自动 恢复 是 HDFS 的 一 个 核心 目标 。 





























流 式 的 数据 访问 。HDFS 使 应 用 程序 流 式 地 访问 它们 的 数据 集 。HDFS 被 设计 成 适合 进行 
量 处 理 ， 而 不 是 用 户 交 互 式 处 理 。 所 以 它 重视 数据 吞吐 量 ， 而 不 是 数据 访问 的 反应 速度 。 









































简化 一 致 性 模型 。 大 部 分 的 HDFS 程 序 对 文件 的 操作 需要 一 次 写 入 ， 多 次 读 取 。 一 个 文 
件 一 旦 经 过 创建 、 写 入 、 关 闭 就 不 需要 修改 了 。 这 个 假设 简化 了 数据 一 致 性 问题 和 高 否 吐 量 
的 数据 访问 问题 。 





通信 协议 。 所 有 的 通信 协议 都 是 在 TCP/AP 协 议 之 上 的 。 一 个 客户 端 和 明确 配置 了 端口 的 
名 字 节 点 “NameNode) 建立 连接 之 后 ， 它 和 名 字 节 点 的 协议 便 是 客户 端 协议 (Client 
Protocal) 。 数 据 节点 (DataNode) 和 名 字 节 点 之 间 则 用 数据 节点 协议 (DataNode 

















Protocal) 。 


关于 HDFS 的 具体 介绍 请 参考 本 章 1.3 节 。 

















5) Chukwa: Chukwa 是 开源 的 数据 收集 系统 ， 用 于 监控 和 分 析 大 型 分 布 式 系统 的 数据 。 
Chukwa 是 在 Hadoop 的 HDFS 和 MapReduce 框 架 之 上 搭建 的 ， 它 继承 了 Hadoop 的 可 扩展 性 和 健 
壮 性 。Chukwa 通 过 HDFS 来 存储 数据 ， 并 依赖 MapReduce 任 务 处 理 数据 。Chukwa 中 也 附带 了 
灵活 且 强 大 的 工具 ， 用 于 显示 、 监 视 和 分 析 数 据 结 果 ， 以 便 更 好 地 利用 所 收集 的 数据 。 





















































6) Hive: Hive 最 早 是 由 Facebook 设 计 的 ， 是 一 个 建立 在 Hadoop 基 础 之 上 的 数据 仓库 ， 
它 提供 了 一 些 用 于 对 Hadoop 文 件 中 的 数据 集 进 行 数据 整理 、 特 殊 查询 和 分 析 存 储 的 工具 。 
Hive 提 供 的 是 一 种 结构 化 数据 的 机 制 ， 它 支持 类 似 于 传统 RDBMS 中 的 SQL 语言 的 查询 语言 ， 
























































来 帮助 那些 熟悉 SQL 的 
统 的 MapReduce 编 程 人 员 也 





P # if] Hadoop4 





的 数据 ， 该 查询 语言 称 为 Hive QL。 与 此 同时 ， 传 


可 以 在 Mapper 或 Reducer 中 通过 Hive QL 查询 数据 。Hive 编 译 器 会 





把 Hive QL 编译 成 一 组 MapReduce 任 务 ， 从 而 方便 MapReduce 编 程 人 员 进 行 Hadoop 系 统 开 


发 。 


7) HBase: HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 该 
一 个 结构 化 数据 的 分 布 式 存储 系统 》。 如 同 
(Google File System) 提供 的 分 布 式 数 据 存储 方式 一 
的 能 力 。HBase 不 同 于 一 般 的 关系 数据 库 ， 原 
非 结构 化 数据 存储 的 数据 库 ， 其 二 ，HBase 是 基于 列 而 不 是 基于 行 


(Bigtable : 


Bigtable 


Bigtable Fl 


技术 来 源 于 Google 论 文 



























































使 用 相同 的 数据 模型 。 








户 将 数据 存 


储 在 一 个 表 里 ， 





一 个 数据 行 




















数量 的 列 。 由 于 HBase 表 是 


随机 








访问 、 


8) Pig: Pig 是 一 个 对 大 型 数据 集 进 行 分 析 、 评 估 的 平台 。Pig 最 突出 的 优势 是 它 的 结构 
能 够 经 受 住 高 度 并 行 化 的 检验 ， 这 个 特性 使 得 它 能 够 处 理 大 型 的 数据 集 。 目 前 ，Pig 的 底层 
一 个 编译 器 组 成 ， 它 在 运行 的 时 候 会 产生 一 些 MapReduce 程 序 序列 ，Pig 的 语言 层 由 一 种 叫 


组 成 。 有 关 Pig 的 具体 内 容 请 参考 第 





Pig Latin 的 正文 型 语言 





9) ZooKeeper: ZooKeeper 是 一 个 为 分 布 式 应 


提供 同步 、 配 置 管理 、 分 组 











BUA HY 


了 Google 文 件 系统 





羊 ，HBase 在 Hadoop 之 上 提供 了 类 似 于 
因 有 两 个 : 其 一 ，HBase 是 一 个 适合 于 
HERIR. HBasefllBigtable 


有 一 个 可 选择 的 键 和 任意 
户 可 以 为 行 定义 各 种 不 同 的 列 。HBase 主 
实时 读 写 的 大 数据 Big Data) 。 上 有 具体 介绍 请 参考 第 12 章 。 
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JRA: 





























Priti 


4 章 。 














且 和 命名 等 服务 ， 减 轻 分 布 式 应 














ZooKeeper 的 文件 系统 使 


了 我 





上 面 讨论 的 9 个 项 目 在 本 书 中 


它 支 持 Java 和 C 两 种 编程 语言 。 有 关 ZooKeeper 的 具 














门 所 熟悉 的 目录 树 结构 。ZooKeeper 是 使 
体内 容 请 参考 第 15 章 。 






































| 的 开源 协调 服务 。 它 主要 为 用 户 
程序 所 承担 的 协调 任务 。 
Java 编 写 的 ， 但 是 














P 都 有 相应 的 章节 进行 详细 的 介绍 。 


1.3 ”Hadoop 体 系 结构 


如 上 文 所 说 ，HDFS 和 MapReduce 是 Hadoop 的 两 大 核心 。 而 整个 Hadoop 的 体系 结构 主要 
是 通过 HDFS 来 实现 分 布 式 存储 的 底层 支持 的 ， 并 且 它 会 通过 MapReduce 来 实现 分 布 式 并 行 
任务 处 理 的 程序 支持 。 











NI 











下 面 首先 介绍 HDFS 的 体系 结构 。HDFS 采 用 了 主 从 (Master/Slave ) 结构 模型 ， 一 个 
HDFS 集 群 是 由 一 个 NameNode 和 若干 个 DataNode 组 成 的 。 其 中 NameNode 作 为 主 服务 器 ， 
管理 文件 系统 的 命名 空间 和 客户 端 对 文件 的 访问 操作 ， 集 群 中 的 DataNode 管 理 存储 的 数据 。 
HDFS 人 允许 用 户 以 文件 的 形式 存储 数据 。 从 内 部 来 看 ， 文 件 被 分 成 若干 个 数据 块 ， 而 且 这 若 
和 干 个 数据 块 存放 在 一 组 DataNode 上 。NameNode 执 行文 件 系统 的 命名 空间 操作 ， 比 如 打开 、 
关闭 、 重 命名 文件 或 目录 等 ， 它 也 负责 数据 块 到 具体 DataNode 的 映射 。DataNode 负 责 处 理 
文件 系统 客户 端的 文件 读 写 请 求 ， 并 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 、 删 除 和 
复制 工作 。 图 1-3 所 示 为 HDFS 的 体系 结构 。 


数据 请 求 














pni 



















































客户 请 
DataNede Data Nade J 
















图 1-3 HDFS 体 系 结构 图 

















NameNode 和 DataNode 都 可 以 在 普通 商用 计算 机 上 运行 。 这 些 计 算 机 通常 运行 的 是 
GNU/Linux 操 作 系 统 。HDFS 采 用 Java 语 言 开 发 ， 因 此 任何 支持 Java 的 机 器 都 可 以 部 署 
NameNode 和 DataNode。 一 个 典型 的 部 署 场景 是 集群 中 的 一 台 机 器 运行 一 个 NameNode 实 








例 ， 其 他 机 器 分 兄 









































行 一 个 DataNode 实 例 。 当 然 ， 并 不 排除 一 台 机 器 运行 多 个 DataNode 实 


























数据 的 管理 者 ， 
DataNode. 


Be BRP 44MapReduce ft) 


需要 保存 


运 
例 的 情况 。 集 群 中 单一 NameNode 的 设计 大 大 简化 了 系统 的 架构 。NameNode 是 所 有 HDFS 元 
户 


的 数据 不 会 经 过 NameNode， 而 是 直接 流向 存储 数据 的 














体系 结构 。MapReduce 是 一 种 并 行 编程 模式 ， 利 用 这 种 模式 软 








件 开发 者 可 以 轻松 地 编写 出 分 布 式 并 行程 序 。 在 Hadoop 的 体系 结构 中 ，MapReduce 是 一 个 简 














单 易 用 的 软件 框架 ， 基 于 它 可 





























以 将 任务 分 发 到 由 上 千 台 商用 机 器 组 成 的 集群 上 ， 并 以 一 种 可 











靠 容错 的 方式 并 行 处 理 大 量 的 数据 集 ， 实 现 Hadoop 的 并 行 任务 处 理 功 能 。MapReduce 框 架 是 
由 一 个 单独 运行 在 主 节点 的 JobTracker 和 运行 在 每 个 集群 从 节点 的 TaskTracker 共 同 组 成 的 。 








主 节 点 负责 调度 构成 一 个 作 








的 所 有 任务 ， 这 些 任 务 分 布 在 不 同 的 从 节点 上 。 主 节点 监控 它 

















们 的 执行 情况 ， 并 且 重 新 执行 之 前 失败 的 任务 ， 从 节点 仅 负 责 由 主 节点 指派 的 任务 。 当 一 个 
Job 被 提交 时 ，JobTracler 接 收 到 提交 作业 和 其 配置 信息 之 后 ， 就 会 将 配置 信息 等 分 发 给 从 节 























点 ， 同 时 调度 任务 并 监控 TaskT 





racker 的 执行 。 


从 上 面 的 介绍 可 以 看 出 ，HDFS 和 MapReduce 共 同 组 成 了 Hadoop 分 布 式 系统 体系 结构 的 
核心 。HDFS 在 集群 上 实现 了 分 布 式 文件 系统 ，MapReduce 在 集群 上 实现 了 分 布 式 计算 和 任 
务 处 理 。HDFS 在 MapReduce 任 务 处 理 过 程 中 提供 了 对 文件 操作 和 存储 等 的 支持 ， 
MapReduce 在 HDFS 的 基础 上 实现 了 任务 的 分 发 、 跟 踪 、 执 行 等 工作 ， 并 收集 结果 ， 二 者 相 
互 作用 ， 完 成 了 Hadoop 分 布 式 集群 的 主要 任务 。 
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1.4 ”Hadoop 与 分 布 式 开发 








我 们 通常 所 说 的 分 布 式 系统 其 实 是 分 布 式 软件 系统 ， 即 支持 分 布 式 处 理 的 软件 系统 。 它 
是 在 通信 网 络 互联 的 多 处 理 机 体系 结构 上 执行 任务 的 系统 ， 包 括 分 布 式 操作 系统 、 分 布 式 程 
序 设 计 语言 及 其 编译 〈 解 释 ) 系统 、 分 布 式 文件 系统 和 分 布 式 数据 库 系 统 等 。Hadoop 是 分 布 

















式 软件 系统 中 文件 系统 层 的 软件 ， 





它 实现 了 分 布 式 文件 系统 和 部 分 分 布 式 数据 库 系 统 的 功 








能 。Hadoop 中 的 分 布 式 文件 系统 HDFS 能 够 实现 数据 在 计算 机 集群 组 成 的 云 上 高 效 的 存储 和 





管理 ，Hadoop 中 的 并 行 编程 框架 MapReduce 能 够 让 



































户 编写 的 Hadoop 并 行 应 用 程序 运行 得 

















以 简化 。 下 面 简单 介绍 一 下 基于 Hadoop 进 行 分 布 式 并 发 编程 的 相关 知识 ， 详 细 的 介绍 请 参看 


后 面 有 关 MapReduce 编 程 的 章节 。 

















Hadoop 上 并 行 应 用 程序 的 开发 是 基于 MapReduce 编 程 模型 的 。MapReduce 编 程 模型 的 原 











理 是 : 利用 一 个 输入 的 key/value 对 















































集合 来 产生 一 个 输出 的 key/value 对 集合 。MapReduce 库 的 
户 用 两 个 函数 来 表达 这 个 计算 : Map 和 Reduce。 


户 自 定义 的 Map 函 数 接收 一 个 输入 的 key/value 对 ， 然 后 产生 一 个 中 间 key/value 对 的 集 

















合 。MapReduce 把 所 有 具有 相同 key 值 的 value 集 合 在 一 起 ， 然 后 传递 给 Reduce 函 数 。 用 户 自 











定义 的 Reduce 函 数 接收 key 和 相关 

















的 value 集 合 。 一 般 来 说 ， 每 次 调 











的 value 集 合 。Reduce 函 数 合并 这 些 value 值 ， 形 成 一 个 较 小 
Reduce 函 数 只 产生 0 或 1 个 输出 的 value 值 。 通 常 我 们 通过 











一 个 迭代 器 把 中 间 value 值 提供 给 Reduce 函 数 ， 这 样 就 可 以 处 理 无 法 全 部 放 入 内 存 中 的 大 量 的 











value 值 集合 





图 1-4 是 MapReduce 的 数据 流 图 ， 体 现 MapReduce 处 理 大 数据 集 的 过 程 。 简 而 言 之 ， 这 个 
过 程 就 是 将 大 数据 集 分 解 为 成 百 上 千 个 小 数据 集 ， 每 个 或 若干 个 ) 数据 集 分 别 由 集群 中 的 


一 个 节点 (一 般 就 是 一 台 普 通 的 记 
大 量 的 节点 合并 ， 形 成 最 终结 果 。 
数 : Map、Reduce。 在 这 个 结构 中 








-算术 
图 1- 





) 进行 处 理 并 4 














成 中 间 结 果 ， 然 后 这 些 中 间 结 果 又 由 











4 也 说 明了 MapReduce 框 架 下 并 行程 序 中 的 两 个 主要 函 














户 需要 完成 的 





[ 作 是 根据 任务 编写 Map 和 Reduce 两 个 





排序 排序 合并 








输出 数据 
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图 1-4 MapReduce 数 据 流 图 


MapReduce 计 算 模型 非常 适合 在 大 量 计算 机 组 成 的 大 规模 集群 上 并 行 运行 。 图 1-4 中 的 每 


一 个 Map 任 务 和 每 一 个 Reduce 任 务 均 可 以 同时 运行 于 一 个 单独 的 计算 节点 上 ， 可 想 而 知 ， 其 











运算 效率 是 很 高 的 ， 那 么 这 样 的 并 行 计算 是 如 何 做 到 的 呢 ? 下 面 将 简单 介绍 一 下 其 原理 。 





1 .数据 分 布 存储 


Hadoop 分 布 式 文件 系统 CHDFS) 由 一 个 名 字 节 点 (NameNode) 和 多 个 数据 节点 


(DataNode) 组 成 ， 每 个 节点 都 是 一 台 普 通 的 计算 机 。 在 使 
机 文件 系统 非常 类 似 ， 利 用 它 可 以 创建 目录 ， 创 建 、 复 制 、 

容 等。 但 文件 在 HDFS 底 层 被 切割 成 了 Block， 这 些 Block 分 散 
个 Block 还 可 以 复制 数 份 数据 存储 在 不 同 的 DataNode 上 ， 达 到 





























方式 上 HDFS 与 我 们 熟悉 的 单 
I 除 文 件 ， 并 且 可 以 查看 文件 内 
也 存储 在 不 同 的 DataNode 上 ， 每 














容错 容 灾 的 目的 。NameNode 则 


是 整个 HDFS 的 核心 ， 它 通过 维护 一 些 数据 结构 来 记录 每 一 个 文件 被 切割 成 了 多 少 个 Block、 





这 些 Block 可 以 从 哪些 DataNode 中 获得 ， 以 及 各 个 DataNode 的 





2. 分 布 式 并 行 计算 














Hadoop 中 有 一 个 作为 主 控 的 JobTracker， 用 于 调度 和 管理 





JobTracker 可 以 运行 于 集群 中 的 任意 一 台 计 算 机 上 ; TaskTrac 
行 于 DataNode 上， 也 就 是 说 DataNode 既 是 数据 存储 节点 ， 











状态 等 重要 信息 。 





E 其 他 的 TaskTracker。 
ker 则 负责 执行 任务 ， 它 必须 运 





也 是 计算 节点 。JobTracker 将 Map 





任务 和 Reduce 任 务 分 发 给 空闲 的 TaskTracker， 让 这 些 任务 并 行 运行 ， 并 负责 监控 任务 的 运行 


情况 。 如 果菜 一 个 TaskTracker 出 了 故障 ，JobTracker 会 将 其 负 
TaskTracker 重 








3. 本 地 计算 





责 的 任务 转交 给 另 一 个 空闲 的 


数据 存储 在 哪 一 台 计算 机 上 ， 就 由 哪 台 计 算 机 进行 这 部 分 数据 的 计算 ， 这 样 可 以 减少 数 
据 在 网 络 上 的 传输 ， 降 低 对 网 络 带宽 的 需求 。 在 Hadoop 这 类 基于 集群 的 分 布 式 并 行 系统 中 ， 
计算 节点 可 以 很 方便 地 扩充 ， 因 此 它 所 能 够 提供 的 计算 能 力 近乎 无 限 。 但 是 数据 需要 在 不 同 
的 计算 机 之 间 流 动 ， 故 而 网 络 带宽 变 成 了 瓶颈 “本 地 计算 ”是 一 种 最 有 效 的 节约 网 络 带宽 的 
手段 ， 业 界 将 此 形容 为 “移动 计算 比 移动 数据 更 经 济 ”。 





























4. 任 务 粒度 


在 把 原始 大 数据 集 切割 成 小 数据 集 时 ， 通 常 让 小 数据 集 小 于 或 等 于 HDFS 中 一 个 Block 的 
大 小 〈 默 认 是 64MB) ， 这 样 能 够 保证 一 个 小 数据 集 是 位 于 一 台 计 算 机 上 的 ， 便 于 本 地 计 
算 。 假 设 有 M 个 小 数据 集 待 处 理 ， 就 启动 M 个 Map 任 务 ， 注 意 这 M 个 Map 任 务 分 布 于 N 台 计算 
机 上 ， 它 们 将 并 行 运行 ，Reduce 任 务 的 数量 R 则 可 由 用 户 指定 。 



































5. 数 据 分 割 (Partition) 

















把 Map 任 务 输出 的 中 间 结 果 按 key 的 范围 划分 成 R 份 R 是 预先 定义 的 Reduce 任 务 的 个 
数 ) ， 划 分 时 通常 使 用 Hash 函 数 (如 hash (key) modR) ， 这 样 可 以 保证 某 一 段 范围 内 的 
key 一 定 是 由 一 个 Reduce 任 务 来 处 理 的 ， 可 以 简化 Reduce 的 过 程 。 


























6. 数 据 合 并 (Combine) 





在 数据 分 割 之 前 ， 还 可 以 先 对 中 间 结 果 进 行 数据 合并 (Combine ) ， 即 将 中 间 结 果 中 有 
相同 key 的 二 key, value 之 对 合并 成 一 对 。Combine 的 过 程 与 Reduce 的 过 程 类 似 ， 在 很 多 情况 
下 可 以 直接 使 用 Reduce 函 数 ， 但 Combine 是 作为 Map 任 务 的 一 部 分 、 在 执行 完 Map 函 数 后 紧 
接着 执行 的 。Combine 能 够 减少 中 间 结 果 中 二 key, value 对 的 数目 ， 从 而 降低 网 络 流量 。 












































7.Reduce 


Map 任 务 的 中 间 结 果 在 执行 完 Combine 和 Partition 之 后 ， 以 文件 形式 存储 于 本 地 磁盘 上 。 
中 间 结 果 文 件 的 位 置 会 通知 主 控 JobTracker, JobTracker 再 通知 Reduce 任 务 到 哪 一 个 

















TaskTracker 上 去 取 中 间 结 果 。 注 意 ， 所 有 的 Map 任 务 产 生 的 中 间 结 果 均 按 其 key 值 通过 同一 个 
Hash 函 数 划分 成 了 R 份 ，R 个 Reduce 任 务 各 自负 责 一 段 key 区 间 。 每 个 Reduce 需 要 向 许多 个 
Map 任 务 节点 取得 落 在 其 负责 的 key 区 间 内 的 中 间 结 果 ， 然 后 执行 Reduce 函 数 ， 形 成 一 个 最 
终 的 结果 文件 。 

















8. 任 务 管道 


有 R 个 Reduce 任 务 ， 就 会 有 R 个 最 终结 果 。 很 多 情况 下 这 R 个 最 终结 果 并 不 需要 合并 成 一 
个 最 终结 果 ， 因 为 这 R 个 最 终结 果 又 可 以 作为 男 一 个 计算 任务 的 输入 ， 开 始 另 一 个 并 行 计算 
任务 ， 这 也 就 形成 了 任务 管道 。 























这 里 简要 介绍 了 在 并 行 编程 方面 Hadoop 中 MapReduce 编 程 模型 的 原理 、 流 程 、 程 序 结构 
和 并 行 计 算 的 实现 ，MapReduce 程 序 的 详细 流程 、 编 程 接口 、 程 序 实例 等 请 参见 后 面 章节 。 











1.5 Hadoop 计 算 模型 一 MapReduce 


MapReduce 是 Google 公 司 的 核心 计算 模型 ， 它 将 运行 于 大 规模 集群 上 的 复杂 的 并 行 计算 
过 程 高 度 地 抽象 为 两 个 函数 : Map 和 Reduce。Hadoop 是 Doug Cutting 受 到 Google 发 表 的 关于 
MapReduce 的 论文 启发 而 开发 出 来 的 。Hadoop 中 的 MapReduce 是 一 个 使 用 简易 的 软件 框架 ， 
基于 它 写 出 来 的 应 用 程序 能 够 运行 在 由 上 千 台 商用 机 器 组 成 的 大 型 集群 上 ， 并 以 一 种 可 靠 容 
背 的 方式 并 行 处 理 上 T 级 别 的 数据 集 ， 实 现 了 Hadoop 在 集群 上 的 数据 和 任务 的 并 行 计算 与 处 
理 。 
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一 个 Map/Reduce 作 业 《〈Job) 通常 会 把 输入 的 数据 集 切 分 为 若干 独立 的 数据 块 ， 由 Map 
任务 (Task) 以 完全 并 行 的 方式 处 理 它们 。 框 架 会 先 对 Map 的 输出 进行 排序 ， 然 后 把 结果 输 
入 给 Reduce 任 务 。 通 常 作业 的 输入 和 输出 都 会 被 存储 在 文件 系统 中 。 整 个 框架 负责 任务 的 调 
度 和 监控 ， 以 及 重新 执行 已 经 失败 的 任务 。 











通常 ，Map/Reduce 框 架 和 分 布 式 文件 系统 是 运行 在 一 组 相同 的 节点 上 的 ， 也 就 是 说 ， 计 
算 节点 和 存储 节点 在 一 起 。 这 种 配置 允许 框架 在 那些 已 经 存 好 数据 的 节点 上 高 效 地 调度 任 
务 ， 这 样 可 以 使 整个 集群 的 网 络 带宽 得 到 非常 高 效 的 利 























Map/Reduce 框 架 由 一 个 单独 的 Master JobTracker 和 集群 节点 上 的 Slave TaskTracker 共 同 
组 成 。Master 负 责 调度 构成 一 个 作业 的 所 有 任务 ， 这 些 任 务 分 布 在 不 同 的 slave 上 。Master 监 
控 它 们 的 执行 情况 ， 并 重新 执行 已 经 失败 的 任务 ， 而 Slave 仅 负责 执行 由 Master 指 派 的 任务 。 

















在 Hadoop 上 运行 的 作业 需要 指明 程序 的 输入 /输出 位 置 〈 路 径 ) ， 并 通过 实现 合适 的 接 
口 或 抽象 类 提供 Map 和 Reduce 函 数 。 同 时 还 需要 指定 作业 的 其 他 参数 ， 构 成 作业 配置 Job 
Configuration) 。 在 Hadoop 的 JobClient 提 交 作 业 (JAR 包 /可 执行 程序 等 ) 和 配置 信息 给 
JobTracler 之 后 ，JobTracler 会 负责 分 发 这 些 软件 和 配置 信息 给 slave 及 调度 任务 ， 并 监控 它们 
的 执行 ， 同 时 提供 状态 和 诊断 信息 给 JobClient。 














1.6 Hadoop 数 据 管理 








前 面 重点 介绍 了 Hadoop 及 其 体系 结构 与 计算 模型 MapReduce， 现 在 开始 介绍 Hadoop 的 
数据 管理 ， 主 要 包括 Hadoop 的 分 布 式 文件 系统 HDFS、 分 布 式 数据 库 HBase 和 数据 仓库 工具 


Hive. 








1.6.1 HDFS 的 数据 管理 





HDFS 是 分 布 式 计算 的 存储 基石 ，Hadoop 分 布 式 文件 系统 和 其 他 分 布 式 文件 系统 有 很 多 
类 似 的 特性 : 


对 于 整个 集群 有 单一 的 命名 空间 ; 





具有 数据 一 致 性 ， 都 适合 一 次 写 入 多 次 读 取 的 模型 ， 客 户 端 在 文件 没有 被 成 功 创建 之 前 
是 无 法 看 到 文件 存在 的 ; 








文件 会 被 分 割 成 多 个 文件 块 ， 每 个 文件 块 被 分 配 存储 到 数据 节点 上 ， 而 且 会 根据 配置 由 
复制 文件 块 来 保证 数据 的 安全 性 。 








通过 前 面 的 介绍 和 图 1-3 可 以 看 出 ，HDFS 通 过 三 个 重要 的 角色 来 进行 文件 系统 的 管理 : 
NameNode、DataNode 和 Client。NameNode 可 以 看 做 是 分 布 式 文件 系统 中 的 管理 者 ， 主 要 负 
责 管 理 文件 系统 的 命名 空间 、 集 群 配置 信息 和 存储 块 的 复制 等 。NameNode 会 将 文件 系统 的 
Metadata 存 储 在 内 存 中 ， 这 些 信息 主要 包括 文件 信息 、 每 一 个 文件 对 应 的 文件 块 的 信息 和 每 
一 个 文件 块 在 DataNode 中 的 信息 等 。DataNode 是 文件 存储 的 基本 单元 ， 它 将 文件 块 
(Block) 存储 在 本 地 文件 系统 中 ， 保 存 了 所 有 Block 的 Metadata， 同 时 周期 性 地 将 所 有 存在 的 
Block 信 息 发 送 给 NameNode。Client 就 是 需要 获取 分 布 式 文件 系统 文件 的 应 用 程序 。 接 下 来 
通过 三 个 具体 的 操作 来 说 明 HDFS 对 数据 的 管理 。 


















































(1) 文件 写 入 


1) Client 向 NameNode 发 起 文件 写 入 的 请 求 。 


2) NameNode 根 据 文件 大 小 和 文件 块 配置 情况 ， 返 回 给 Client 所 管理 的 DataNode 的 信 


证 








3) Client 将 文件 划分 为 多 个 Block， 根 据 DataNode 的 地 址 信息 ， 按 顺序 将 其 写 入 到 每 一 个 
DataNode 块 中 。 











(2) 文件 读 取 


1) Client 向 NameNode 发 起 文件 读 取 的 请 求 。 


2) NameNode 返 回 文件 存储 的 DataNode 信 息 。 


3) Client 读 取 文 件 信息 。 


(3) 文件 块 (Block) 复制 


1) NameNode 发 现 部 分 文件 的 Block 不 符合 最 小 复制 数 这 一 要 求 或 部 分 DataNode 失 效 。 


2) 通知 DataNode 相 互 复制 Block。 


3) DataNode 开 始 直接 相互 复制 。 





作为 分 布 式 文件 系统 ，HDFS 在 数据 管理 方面 还 有 值得 借鉴 的 几 个 功能 : 


SCHEER (Block) 的 放置 : 一 个 Block 会 有 三 份 备份 ， 一 份 放 在 NameNode 指 定 的 
DataNode 上 ， 另 一 份 放 在 与 指定 DataNode 不 在 同一 台 机 器 上 的 DataNode 上， 最 后 一 份 放 在 
与 指定 DataNode 同 一 Rack 的 DataNode 上。 备份 的 目的 是 为 了 数据 安全 ， 采 用 这 种 配置 方式 
主要 是 考虑 同一 Rack 失 败 的 情况 ， 以 及 不 同 Rack 之 间 进 行 数据 复制 会 带 来 的 性 能 问题 。 









































心跳 检测 : 用 心跳 检测 DataNode 的 健康 状况 ， 如 果 发 现 问题 就 采取 数据 备份 的 方式 来 保 
证 数据 的 安全 性 。 








数据 复制 (场景 为 DataNode 失 败 、 需 要 平衡 DataNode 的 存储 利用 率 和 平衡 DataNode 数 





























据 交互 压力 等 情况 ) : 使 用 Hadoop 时 可 以 用 HDFS 的 balancer 命 令 配 置 Threshold 来 平衡 每 一 
































个 DataNode 的 磁盘 利用 率 。 假 设 设置 了 Threshold 为 10%， 那 么 执行 balancer 命 令 时 ， 首 先 会 
统计 所 有 DataNode 的 磁盘 利用 率 的 平均 值 ， 然 后 判断 如 果 某 一 个 DataNode 的 磁盘 利用 率 超 
过 这 个 平均 值 ， 那 么 将 会 把 这 个 DataNode 的 Block 转 移 到 磁盘 利用 率 低 的 DataNode 上 ， 这 对 
于 新 节点 的 加 入 十 分 有 





































































































数据 校 验 : 采用 CRC32 做 数据 校 验 。 在 写 入 文件 块 的 时 候 ， 除 了 会 写 入 数据 外 还 会 写 入 
校 验 信息 ， 在 读 取 的 时 候 则 需要 先 校 验 后 读 入 。 

















单个 NameNode: 如 果 单个 NameNode 失 败 ， 任 务 处 理 信息 将 会 记录 在 本 地 文件 系统 和 
远 端 的 文件 系统 中 。 





数据 管道 性 的 写 入 : 当 客户 端 要 写 入 文件 到 DataNode 上 时 ， 首 先 会 读 取 一 个 Block， 然 
后 将 其 写 到 第 一 个 DataNode 上 ， 接 着 由 第 一 个 DataNode 将 其 传递 到 备份 的 DataNode k, E 
到 所 有 需要 写 入 这 个 Block 的 DataNode 都 成 功 写 入 后 ， 客 户 端 才 会 开始 写 下 一 个 Block。 




















安全 模式 ;分布 式 文件 系统 启动 时 会 进入 安全 模式 (系统 运行 期 间 也 可 以 通过 命令 进入 
安全 模式 ) ， 当 分 布 式 文件 系统 处 于 安全 模式 时 ， 文 件 系统 中 的 内 容 不 允许 修改 也 不 允许 删 
除 ， 直 到 安全 模式 结束 。 安 全 模式 主要 是 为 了 在 系统 启动 的 时 候 检查 各 个 DataNode 上 数据 块 
的 有 效 性 ， 同 时 根据 策略 进行 必要 的 复制 或 删除 部 分 数据 块 。 在 实际 操作 过 程 中 ， 如 果 在 系 
统 启动 时 修改 和 删除 文件 会 出 现 安全 模式 不 允许 修改 的 错误 提示 ， 只 需要 等 待 一 会 儿 即 可 。 























1.6.2 HBase 的 数据 管理 


HBase 是 一 个 类 似 Bigtable 的 分 布 式 数据 库 ， 它 


& 


的 、 长 期 存储 的 〈 存 在 硬盘 上 ) 、 多 维度 的 排序 





的 大 部 分 特性 和 Bigtable 一 样 ， 是 一 个 稀 
决 射 表 ， 这 张 表 的 索引 是 行 关键 字 、 列 关 























键 字 和 时 间 稚 。 表 中 的 每 个 值 是 一 个 纯 字 符 数组 ， 数 据 都 是 字符 串 ， 没 有 类 型 。 用 户 在 表格 








中 存储 数据 ， 每 一 行 都 有 一 个 可 排序 的 主键 和 任意 
表 中 的 每 一 行 数据 都 可 以 有 截然 不 同 的 列 。 列 名 字 








只 能 通过 改变 表 结构 来 改变 表 的 family 集 合 。 但 是 





or 


ZN. HP ee, UATE] ak 


的 格式 是 “<family >: <label>”， 它 是 








由 字符 串 组 成 的 ， 每 一 张 表 有 一 个 family 集合 ， 这 个 集合 是 固定 不 变 的 ， 相 当 于 表 的 结构 ， 











abel 值 相对 于 每 一 行 来 说 都 是 可 以 改变 


HBase 把 同一 个 family 中 的 数据 存储 在 同一 个 目录 下 ， 而 HBase 的 写 操作 是 锁 行 的 ， 每 一 








行 都 是 一 个 原子 元 素 ， 都 可 以 加 锁 。 所 有 数据 库 的 





择 获取 距离 某 个 时 间 点 最 近 的 版 本 ， 或 者 一 次 获取 





更 新 都 有 一 个 时 间 惟 标记， 每 次 更 新 都 会 


生成 一 个 新 的 版 本 ， 而 HBase 会 保留 一 定数 量 的 版 本 ， 这 个 值 是 可 以 设 定 的 。 客 户 端 可 以 选 


所 有 版 本 。 


以 上 从 微观 上 介绍 了 HBase 的 一 些 数据 管理 措施 。 那 么 HBase 作 为 分 布 式 数据 库 在 整体 


上 从 集群 出 发 又 是 如 何 管理 数据 的 呢 ? 





HBase 在 分 布 式 集群 上 主要 依靠 由 HRegion、HMaster、HClient 组 成 的 体系 结构 从 整体 上 


管理 数据 。 





HBase 体 系 结构 有 三 大 重要 组 成 部 分 : 


HBaseMaster: HBase 主 服务 器 ， 与 Bigtable 的 主 服 务 器 类 似 。 


HRegionServer: HBase 域 服务 器 ， 与 Bigtable 的 Tablet 服 务 器 类 似 。 


HBase Client: HBase 客 户 端 是 由 org.apache.hadoop.HBase.client.HTable 定 义 的 。 


下 面 将 对 这 三 个 组 件 进行 详细 的 介绍 。 
(1) HBaseMaster 


一 个 HBase 只 部 署 一 台 主 服 务 器 ， 它 通过 领导 选举 算法 (Leader Election Algorithm) fff 
保 只 有 唯一 的 主 服务 器 是 活跃 的 ，ZooKeeper 保 存 主 服务 器 的 服务 器 地 址 信息 。 如 果 主 服务 
器 瘫痪 ， 可 以 通过 领导 选举 算法 从 备用 服务 器 中 选择 新 的 主 服务 器 。 




















主 服 务 器 承担 着 初始 化 集群 的 任务 。 当 主 服务 器 第 一 次 启动 时 ， 会 试图 从 HDFS 获 取 根 
或 根 域 目录 ， 如 果 获 取 失 败 则 创建 根 或 根 域 目录 ， 以 及 第 一 个 元 域 目录 。 在 下 次 启动 时 ， 主 
服务 器 就 可 以 获取 集群 和 集群 中 所 有 域 的 信息 了 。 同 时 主 服务 器 还 负责 集群 中 域 的 分 配 、 域 
服务 器 运行 状态 的 监视 、 表 格 的 管理 等 工作 。 




















(2) HRegionServer 


HBase 域 服务 器 的 主要 职责 有 服务 于 主 服务 器 分 配 的 域 、 处 理 客户 端的 读 写 请 求 、 本 地 
缓冲 区 回 写 、 本 地 数据 压缩 和 分 割 域 等 功能 。 











每 个 域 只 能 由 一 台 域 服务 器 来 提供 服务 。 当 它 开始 服务 于 某 域 时 ， 它 会 从 HDFS 文 件 系 
统 中 读 取 该 域 的 日 志和 所 有 存储 文件 ， 同 时 还 会 管理 操作 HDFS 文 件 的 持久 性 存储 工作 。 客 
户 端 通过 与 主 服务 器 通信 获取 域 和 域 所 在 域 服务 器 的 列表 信息 后 ， 就 可 以 直接 向 域 服务 器 发 
送 域 读 写 请 求 ， 来 完成 操作 。 




















(3) HBaseClient 











HBase 客 户 端 负责 查找 用 户 域 所 在 的 域 服务 器 地 址 。HBase 客 户 端 会 与 HBase 主 机 交换 消 
息 以 查找 根 域 的 位 置 ， 这 是 两 者 之 间 唯 一 的 交流 。 








定位 根 域 后 ， 客 户 端 连接 根 域 所 在 的 域 服务 器 ， 并 扫描 根 域 获取 元 域 信息 。 元 域 信息 中 
包含 所 需 用 户 域 的 域 服务 器 地 址 。 客 户 端 再 连接 元 域 所 在 的 域 服务 器 ， 扫 描 元 域 以 获取 所 需 
户 域 所 在 的 域 服务 器 地 址 。 定 位 用 户 域 后， 客户 端 连接 用 户 域 所 在 的 域 服务 器 并 发 出 读 写 



















































































须 重 复 上 述 过 程 。 
主 服务 器 、 域 服务 器 和 客户 端 三 部 分 
在 控 每 台 域 服务 器 的 运行 情 
F 回 写 映 射 文件 等 ， 客 





户 域 的 地 址 将 在 客户 端 被 缓 存 ， 后 续 的 请 求 无 




















请 求 。 








Ph，HBase 主 要 

















综 上 所 述 ， 在 HBase 的 体系 结构 
组 成 。 主 服务 器 作为 HBase 的 中 心 ， 管 理 整 个 集群 中 
收 来 自 服务 器 的 分 配 域 ， 处 理 客户 端的 域 读 写 请 求 并 


况 等 ， 域 服务 器 接 
来 查找 用 户 域 所 在 的 域 服 务 器 地 址 信息 。 


PHOT Ask, i 












































户 端 主要 


1.6.3 Hive 的 数据 管理 











Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 工具 ， 用 来 进行 数据 提 
取 、 转 化 、 加 载 ， 这 是 一 种 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 。 
Hive 定 义 了 简单 的 类 SQL 的 查询 语言 ， 称 为 Hive QL， 它 允许 熟悉 SQL 的 用 户 用 SQL 语言 查询 
数据 。 作 为 一 个 数据 仓库 ，Hive 的 数据 管理 按照 使 用 层次 可 以 从 元 数据 存储 、 数 据 存储 和 数 
据 交换 三 方面 来 介绍 。 















































(1) 元 数据 存储 


Hive 将 元 数据 存储 在 RDBMS 中 ， 有 三 种 模式 可 以 连接 到 数据 库 : 




















Single User Mode: 此 模式 连接 到 一 个 In-memory 的 数据 库 Derby ， 一 般 用 于 Unit Test. 

















Multi User Mode: 通过 网 络 连接 到 一 个 数据 库 中 ， 这 是 最 常用 的 模式 。 








Remote Server Mode: 用 于 非 Java 客 户 端 访问 元 数据 库 ， 在 服务 器 端 启 动 一 个 。 

















MetaStoreServer， 客 户 端 利用 Thrift 协 议 通过 MetaStoreServer 来 访问 元 数据 库 。 








(2) 数据 存储 














首先 ，Hive 没 有 专门 的 数据 存储 格式 ， 也 没有 为 数据 建立 索引 ， 用 户 可 以 非常 自由 地 组 
织 Hive 中 的 表 ， 只 需要 在 创建 表 的 时 候 告诉 Hive 数 据 中 的 列 分 隔 符 和 行 分 隔 符 ， 它 就 可 以 解 
析 数 据 了 。 














其 次 ，Hive 中 所 有 的 数据 都 存储 在 HDFS 中 ，Hive 中 包含 4 种 数据 模型 ，Table 、External 














Table. Partition#llBucket. 








Hive 中 的 Table 和 数据 库 中 的 Table 在 概念 上 是 类 似 的 ， 每 一 个 Table 在 Hive 中 都 有 一 个 相 


a, 


应 的 目录 来 存储 数据 。 例 如 ， 一 个 表 pvs， 它 在 HDFS 中 的 路 径 为 /wh/pvs， 其 中 ，wh 是 在 




















hive-site.xml 中 由 ${hive.metastore.warehouse.dir} 指 定 的 数据 仓库 的 目录 ， 所 有 的 Table 数 据 


(不 包括 External Table) 都 保存 在 这 个 目录 中 。 





(3) 数据 交换 





数据 交换 主要 分 为 以 下 几 部 分 ， 如 图 1-5 所 示 。 




















元 数据 存储 : 


解释 器 、 编 译 器 、 优 化 器 、 执 行 器 。 


通常 存储 在 关系 数据 库 中 




















Hadoop: 利用 HDFS 进 行 存储 ， 利 























户 接口 主要 有 三 个 : 














PRO: 包括 客户 端 、Web 界 面 和 数据 库 接口 。 


> WMySQL, Derby 等 。 


MapReduce 进 行 计算 。 











是 Hive 的 客户 端 ， 当 启动 Client 模 式 时 ， 
Server 所 在 的 节点 ， 





Hive 将 元 数据 存储 在 数据 库 中 











户 会 想 








表 的 列 、 表 的 分 区 、 表 分 区 的 








解释 器 、 编 译 器 、 优 
查询 计划 的 生成 。 生 成 的 查询 











Hive 的 数据 存储 在 HDFS 中 ， 


计划 存储 在 HDFS 中 


属性 、 表 的 属性 是 





MapRedcue 任 务 ， 比 如 select*from tbl) 。 





以 上 从 Hadoop 
介绍 了 Hadoop 的 数据 管理 ， 它 介 
的 立体 化 管理 ， 完 成 了 Hadoop 平 台 





并 


客户 端 、 数 据 库 接口 和 Web 界 面 ， 其 中 最 党 
连接 
并 且 在 该 节点 启动 HiveServer。Web 界 面 是 通过 浏览 器 访问 Hive 的 。 


， 如 MySQL、Derby 中 。 
BAY 


化 器 完成 Hive QL 查询 语句 从 词 




















的 是 客户 端 。Client 
Hive Server， 这 时 需要 指出 Hive 





Hive 中 的 元 数据 包括 表 的 名 字 、 
表 的 数据 所 在 目录 等 。 





部 表 等 ) 、 


法 分 析 、 语 法 分 析 、 编 译 、 优 化 到 





FAL 





大 部 分 的 查询 由 MapReduce 完 成 〈 包 含 * 的 查询 不 会 4 


扩 分 布 式 文件 系统 HDFS、 分 布 式 数 据 库 HBase 和 数据 仓库 工具 Hive 入 手 
] 都 通过 自己 的 数据 定义 、 体 系 结构 实现 了 数据 从 宏观 到 微观 
上 大 规模 的 数据 存储 和 任务 处 理 。 




















执行 。 





随后 由 MapReduce 调 





成 














Tracker 














1-5 


Hive 数 据 交 换 








Bs) 








1.7 Hadoop k ff ZA HNK 


众所周知 ，Hadoop 





的 优势 在 于 








其 能 够 将 廉价 














大 型 集群 ， 企 业 正 是 利 








是 ，Hadoop 集 群 搭建 起 来 后 如 何 保证 它 安全 稳定 
安全 策略 ， 导 致 Hadoop 集 群 面临 
MapReduce 集 群 ， 可 以 在 


























这 一 特点 来 构架 Hadoop 重 





恨 多 风险 ， 例 如 ， 


























Hadoop 和 集群 上 运行 自己 的 代码 来 冒充 Hadoop 重 


经 过 Hadoop 安 全 /| 



































被 授权 的 用 户 都 可 以 访问 DataNode 节 点 的 数据 块 等 。 
Hadoop 1.0.0 版 本 中 己 经 加 入 最 新 
集群 更 加 安全 和 稳定 。 下 面 从 

面 简要 介绍 Hadoop 的 集群 


查阅 相关 资料 。 











qd) 





户 权限 管理 














的 


o! 


户 权 
等 操 f 


Hadoop 上 
Job 提 交 和 配置 








T 

















民 管 理 主要 涉及 
提供 认证 和 控制 基础 。 














的 普通 PC 组 织 成 能 够 高 效 稳定 处 理事 务 的 

群 、 获 取 海 量 数据 的 高 效 处 理 能 力 的 。 但 
也 运行 呢 ? 旧 版 本 的 H 
户 可 以 以 任何 身份 访问 HH 


bh 没有 完善 的 
DFS 或 
ERER EIR 
\ 组 的 努力 ， 在 


adoop4 











的 安全 机 制 和 授权 机 制 〈Simple 和 Kerberos) ， 使 Hadoop 
户 权限 管理 、HDFS 安 全 策略 和 MapReduce 安 全 策略 三 个 方 
安全 策略 。 有 关 安 全 方面 的 基础 知识 如 Kerberos 认 证 等 读者 可 自行 


户 分 组 管理 ， 为 更 高 层 的 HDFS 访 问 、 服 务 访问 、 











的 用 户 和 








户 组 名 均 由 





Hadoop 上 




















(Jus 
的 访 


其 保存 在 Job 
及 集群 服务 
JobTracker 时 











g 
以 
型 
获 

















Hadoop 集 群 的 管理 员 是 创建 和 配置 Hadoop 集 
机 制 进行 认证 和 授权 。 同 时 管理 员 可 以 在 集群 的 
DataNode、JobTracker 和 TaskTracker) 授权 列表 中 


Linux 的 “whoam 六 命令 获取 当前 Linux 系 统 的 
ername 和 group.name 两 个 属 
问 都 将 基于 此 
，JobTracker 会 读 鲁 
令 牌 之 后 ，JobTracker 会 根据 
见 本 小 节 的 HDFS 安 全 策略 和 Map 


户 自己 指定 ， 如 果 























户 名 和 


户 组 名 








户 没有 指定 ， 济 
作为 当前 


了 么 Hadoop 会 调 


户 的 对 应 名 ， 并 














Poet 








0 











户 
































户 和 用 户 组 
Reduce 安 全 策略 








EP. 
权 
保存 在 Job 路 径 
的 权限 信息 将 Job 








hH 





这 样 
民 及 认证 
的 用 户 信息 并 进行 








信息 进行 。 




















提交 


de 


户 所 提交 Job 的 


lJob 





后 续 认 证 和 授权 
E. 户 提交 Job 
认证 ， 在 认证 成 功 并 

队列 (具体 细节 参 














Hl, 





acy 























Ps 


€En 


以 配置 集群 ， 使 











Kerberos 




















RS (集群 的 服务 主要 包括 NameNode、 
pb 添加 或 更 改 某 确定 用 户 和 用 户 组 ， 系 统管 


























(2) HDFS 安 全 策略 


员 同 时 负责 Job 队 列 和 队列 的 访问 控制 矩阵 的 创建 。 























户 和 HDFS 服 务 之 间 的 交互 主要 有 两 种 情况 : 

















待 通信 的 DataNode 位 置 ， 客 户 机 和 DataNode 交 互 传输 数据 块 。 


户 机 和 NameNode 之 间 的 RPC 交 互 获取 











RPC 交 互 可 以 通过 Kerberos 或 授权 令 牌 来 认证 。 在 认证 与 NameNode 的 连接 时 ， 用 户 需 

















个 新 
令 牌 
令 牌 































































































Kerberos 证 书 来 通过 初试 认证 ， 获 取 授权 令 牌 。 授 权 令 牌 可 以 在 后 续 用 户 Job 与 
eNode 连 接 的 认证 中 使 用 ， 而 不 必 再 次 访问 Kerberos Key Server。 授 权 令 牌 实 际 上 是 
与 NameNode 之 间 共 享 的 密 钥 。 授 权 令 牌 在 不 安全 的 网 络 上 传输 时 ， 应 给 予 足够 的 保 
防止 被 其 他 用 户 恶意 窃取 ， 因 为 获取 授权 令 牌 的 
eNode 进 行 不 安全 的 交互 。 需 要 注意 的 是 ， 每 个 
的 授权 令 牌 。 用 户 从 NameNode 获 取 授 权 令 牌 之 后 ， 需 要 告诉 NameNode: 谁 是 指定 的 


任何 人 都 可 以 假扮 成 认证 用 户 与 
户 只 能 通过 Kerberos 认 证 获取 唯一 一 
























































更 新 者 。 指 定 的 更 新 者 在 为 用 户 更 新 令 牌 时 应 通过 认证 确定 自己 就 是 NameNode。 更 新 











意味 着 延长 令 牌 在 NameNode 上 的 有 效 期 。 为 了 














户 





以 选 


站 都 
数据 
的 认 


Data 





JobTracker 需 要 保证 这 一 





应 将 JobTracler 指 定 为 令 牌 更 新 者 。 这 样 同 - 


择 取 消 令 牌 。 


数据 块 的 传输 可 以 通过 块 访问 令 牌 来 认证 ， 





是 特定 的 。 块 访问 令 牌 代表 着 数据 访问 容量 ， 
块 。 块 访问 令 牌 由 NameNode 签 发 被 用 在 DataNode 上 


























令 牌 在 整个 任务 的 执行 过 程 中 都 是 可 


使 MapRe 














uce Job 使 用 一 个 授权 令 牌 ， 











-个 Job 的 所 有 Task 都 会 











使 用 同一 个 令 牌 。 














每 一 个 块 访问 令 牌 都 
一 个 块 访问 令 牌 
H 











的 , 在 





任务 结束 之 后 ， 它 可 





NameNode 生 成 ， 它 

















证 信息 传输 到 DataNode 上 。 块 访问 令 牌 是 基于 对 称 加 密 





Node 共 享 了 密 钥 。 对 于 每 个 令 牌 ，NameNode 基 于 共 











kE HH 














保证 用 户 可 以 访问 指定 的 
其 传输 过 程 就 是 将 NameNode 上 
模式 生成 
算 一 个 消息 认证 码 














的 ，NameNode 和 


(Message Authentication Code, MAC) 。 接 下 来 ， 这 个 消息 认证 码 就 会 作为 令 牌 验证 器 成 为 


令 牌 
算 一 


的 主要 组 成 部 分 。 当 一 个 DataNode 接 收 到 一 
-个 消息 认证 码 ， 如 果 这 个 认证 码 同 令 牌 中 的 认证 码 匹配 ， 那 么 认证 成 功 。 











个 令 牌 时 ， 














它 会 使 








自己 的 共享 密 钥 重新 计 





(3) MapReduce 安 全 策略 


MapReduce 安 全 策略 主要 涉及 Job 提 交 、Task 和 Shuffle 三 个 方面 。 


对 于 Job 提 交 ， 
































户 需要 将 Job 配 置 、 输 入 文件 和 输入 文件 的 元 数据 等 写 入 用 户 home 文 件 





























夹 下 ， 这 个 文件 夹 只 能 由 该 用 户 读 、 写 和 执行 。 接 下 来 用 户 将 home 文 件 夹 位 置 和 认证 信息 发 
送 给 JobTracker。 在 执行 过 程 中 ，Job 可 能 需要 访问 多 个 HDFS 节 点 或 其 他 服务 ， 因 此 ，Job 的 
安全 凭证 将 以 <String key, binary value> 形 式 保存 在 一 个 Map 数 据 结 构 中 ， 在 物理 存储 介质 
上 将 保存 在 HDFS 中 JobTracker 的 系统 目录 下 ， 并 分 发 给 每 个 TaskTracker。Job 的 授权 令 牌 将 
NameNode 的 URL 作 为 其 关键 信息 。 为 了 防止 授权 令 牌 过 期 ，JobTracker 会 定期 更 新 授权 令 
结束 之 后 所 有 的 令 牌 都 会 失效 。 为 了 获取 保存 在 HDFS 上 的 配置 信息 ，JobTracker 需 


牌 。Job 
































要 使 











任务 (Task) 的 用 户 信 息 沿 









































户 的 Job 不 会 向 TaskTracker 或 其 























户 的 授权 令 牌 访问 HDFS， 读 取 必 需 的 配置 信息 。 














生成 Task 的 Job 的 用 户 信 息 ， 因 为 通过 这 个 方式 能 保证 一 个 














他 








户 Job 的 Task 发 送 系 统 信号 。 这 种 方式 还 保证 了 本 地 文 











件 有 权 











高 效 地 保存 私有 信息 。 在 











户 提 交 Job 后 ，TaskTracker 会 接收 到 JobTracker 分 发 的 Job 














安全 凭证 ， 并 将 其 保存 在 本 地 仅 对 该 用 户 可 见 的 Job 文 件 夹 下 。 在 与 TaskTracker 通 信 的 时 候 ， 

















Task 会 


到 这 个 凭证 。 





当 - 
会 与 Tas 


不 会 获 














-个 Map 任 务 完成 时 ， 它 的 输出 被 发 送 给 管理 此 任务 的 TaskTracker。 每 一 个 Reduce 将 
Tracker 通 信 以 获 取 自己 的 那 部 分 输出 ， 此 时 ， 就 需要 MapReduce 框 架 保 证 其 他 用 户 
这 些 Map 的 输出 。Reduce 任 务 会 根据 Job 和 凭证 计算 请 求 的 URL 和 当前 时 间 戳 的 消息 认 























证 码 。 这 个 消息 认证 码 会 和 请 求 一 起 发 到 TaskTracker， 而 TaskTracker 只 会 在 消息 认证 码 正 确 





替换 ， 应 答 消 息 的 头 部 








并 且 在 封装 时 间 惟 的 N 分 钟 之 内 提供 服务 。 在 TaskTracker 返 回 数据 时 ， 为 了 防止 数据 被 木马 
悔 会 封装 根据 请 求 中 的 消息 认证 码 计算 而 来 的 新 消息 认证 码 和 Job 和 凭 











证 ， 从 而 保证 Reduce 能 够 验证 应 答 消息 是 由 正确 的 TaskTracker 发 送 而 来 。 











1.8 本 章 小 结 


本 章 首 先 介绍 了 Hadoop 分 布 式 计算 平台 : 它 是 由 Apache 软 件 基金 会 开发 的 一 个 开源 分 
布 式 计算 平台 。 以 Hadoop 分 布 式 文件 系统 CHDFS) 和 MapReduce (Google MapReduce 的 开 





源 实 现 ) 为 核心 的 Hadoop 为 























户 提供 了 系统 底层 细节 透明 的 分 布 式 基础 架构 。 由 于 Hadoop 











拥有 可 计量 、 成 本 低 、 高 效 、 可 信 等 突出 特点 ， 基 于 Hadoop 的 应 用 已 经 遍地 开花 ， 尤 其 是 在 





互联 网 领域 。 























本 章 接 下 来 介绍 了 Hadoop 项 目 及 其 结构 ， 现 在 Hadoop 已 经 发 展 成 为 一 个 包含 多 个 子 项 




















目的 集合 ， 被 用 于 分 布 式 计 算 ， 虽然 Hadoop 的 核心 是 Hadoop 分 布 式 文件 系统 和 
MapReduce， 但 Hadoop 下 的 Common、Avro、Chukwa、Hive、HBase 等 子 项 目 提供 了 互补 性 

















服务 或 在 核心 层 之 上 提供 了 更 高 层 的 服务 。 紧 接着 ， 简 要 介绍 了 以 HDFS 和 MapReduce 为 核 


心 的 Hadoop 体 系 结构 。 


本 章 之 后 又 从 分 布 式 系统 的 角度 介绍 了 Hadoop 是 如 何 做 到 并 行 计算 和 数据 管理 的 。 分 布 








式 计算 平台 Hadoop 实 现 了 分 布 式 文件 系统 和 分 布 式 数 据 库 。Hadoop 中 的 分 布 式 文件 系统 

HDFS 能 够 实现 数据 在 电脑 集群 组 成 的 云 上 高 效 的 存储 和 管理 功能 ，Hadoop 中 的 并 行 编程 框 
架 MapReduce 基 于 HDFS 来 保证 用 户 可 以 编写 应 用 于 Hadoop 的 并 行 应 用 程序 。 本 章 又 介绍 了 
Hadoop 的 数据 管理 ， 主 要 包括 Hadoop 的 分 布 式 文件 系统 HDFS、 分 布 式 数据 库 HBase 和 数据 




































































仓库 工具 Hive。 它 们 都 有 自己 完整 的 数据 定义 和 体系 结构 ， 以 及 实现 数据 从 宏观 到 微观 的 立 


体 管理 数据 办 法 ， 这 都 为 Hadoop 平 台 的 数据 存储 和 任务 处 理 打下 了 基础 。 














本 章 最 后 还 介绍 了 关于 Hadoop 的 一 些 基本 的 安全 策略 ， 包 括 用 户 权限 管理 、HDFS 安 全 









































策略 和 MapReduce 安 全 策略 ， 为 用 户 的 实际 使 用 提供 了 参考 。 本 章 中 的 许多 内 容 在 本 书后 面 





的 章节 中 会 详细 介绍 。 











第 2 章 


本 章 内 容 


eò 


在 Linux 上 安装 与 配置 Hadoop 


在 Mac OSX 上 安装 与 配置 Hadoop 


在 Windows 上 安装 与 配置 Hadoop 


安装 和 配置 Hadoop 集 群 





日 志 分 析 及 几 个 小 技巧 


本 章 小 结 


Hadoop 的 安装 非常 简单 ， 大 家 可 


Hadoop 的 安装 与 配置 


以 在 官网 上 下 载 到 最 新 的 几 个 版 本 ， 截 至 本 书 截稿 时 ， 


Hadoop 的 最 新 版 本 是 1.0.1， 下 载 网 址 为 http: //apache.etoakcom//hadoop/core/. 














Hadoop 是 为 了 在 Linux 平 台 上 使 











而 开发 的 ， 但 是 在 一 些 主流 的 操作 系统 如 UNIX、 


Windows 甚 至 Mac OSX 系 统 上 Hadoop 也 运行 良好 。 不 过 ， 在 Windows 上 运行 Hadoop 稍 显 复 
杂 ， 首 先 必 须 安 装 Cygwin 来 模拟 Linux 环 境 ， 然 后 才能 安装 Hadoop。 


本 章 将 介绍 在 Linux、Mac OSX 和 Windows 系 统 上 安装 最 新 的 Hadoop1.0.1 版 本 ， 其 中 
Linux 系 统 是 Ubuntu 11.10, Mac OSX 系 统 是 10.7.3 版 本 ，Windows 系 统 采 


























Windows Xp 


sp3。 这 些 安装 步骤 均 由 笔者 成 功 实践 过 ， 大 家 可 直接 参照 执行 。 


2.1 在 Linux 上 安装 与 配置 Hadoop 





在 Linux 上 安装 Hadoop 之 前 ， 需 要 先 安装 两 个 程序 : 




















1) JDK 1.6 (或 更 高 版 本 ) 。Hadoop 是 用 Java 编 写 的 程序 ，Hadoop 的 编译 及 
MapReduce 的 运行 都 需要 使 用 JDK。 因 此 在 安装 Hadoop 前 ， 必 须 安装 JDK 1.6 或 更 高 版 本 。 




















2) SSH (安全 外 壳 协 议 ) ， 推 荐 安装 OpenSSH。Hadoop 需 要 通过 SSH 来 启动 Slave 列 表 
中 各 台 主 机 的 守护 进程 ， 因 此 SSH 也 是 必须 安装 的 ， 即 使 是 安装 伪 分 布 式 版 本 因为 Hadoop 
并 没有 区 分 开 集 群 式 和 伪 分 布 式 ) 。 对 于 伪 分 布 式 ，Hadoop 会 采用 与 集群 相同 的 处 理 方式 ， 
即 按 次 序 启动 文件 conf/slaves 中 记载 的 主机 上 的 进程 ， 只 不 过 在 伪 分 布 式 中 Salve 为 
localhost (MIAN) ， 所 以 对 于 伪 分 布 式 Hadoop, SSH 一 样 是 必需 的 。 












































2.1.1 安装 JDK 1.6 


下 面 介绍 安装 JDK 1.6 的 具体 步骤 。 
(1) 下 载 和 安装 JDK 1.6 


确保 可 以 连接 到 互联 网 ， 从 http: //www.oracle.com/technetworkjava/javase/downloads 页 
面 下 载 JDK 1.6 安 装 包 (文件 名 类 似 jdk-***-linux-i586.bin， 不 建议 安装 JDK 1.7 版 本 ， 因 为 并 
不 是 所 有 软件 都 支持 1.7 版 本 ) 到 JDK 安 装 目 录 〈 本 章 假设 IDK 安 装 目录 均 
为 hsr/libjjvm/jdk) 。 

















(2) 手动 安装 JDK 1.6 





在 终端 下 进入 JDK 安 装 目录 ， 并 输入 命令 : 





ee | 
sudo chmod u+x jdk-***-linux-i586.bin 
— | 


修改 完 权限 之 后 就 可 以 进行 安装 了 ， 在 终端 输入 命令 : 


Fc== = = = = = 一 
sudo-s./jdk-***-linux-i586.bin 


——CeoN#Ke+_ejTjE——OFRFHEHOOEOoOeowWoOWo0owoeraele>=°@®®n—=>=@$>~@Q@—OoODoRhRauamSS | 





安装 结束 之 后 就 可 以 开始 配置 环境 变量 了 。 
(3) 配置 环境 变量 


输入 命令 : 


=== 
sudo gedit/etc/profile 
[| 


输入 密码 ， 打 开 profile 文 件 。 


在 文件 最 下 面 输入 如 下 内 容 : 


一 
#set Java Environment 
export JAVA_HOME=/usr/lib/jvm/jdk 
export CLASSPATH= z $JAVA_HOME/lib: $CLASSPATH" 
export PATH="$JAVA_HOME/: $PATH" 


TT | 





这 一 步 的 意义 是 配置 环境 变量 ， 使 系统 可 以 找到 JDK。 


(4) 验证 JDK 是 否 安装 成 功 输入 命令 : 


ee | 
java-version 


一 
会 出 现 如 下 JDK 版 本 信息 : 


一 
java version"1.6.0 22" 
Java (TM) SE Runtime Environment (build 1.6.0 _22-b04) 
Java HotSpot (TM) Client VM (build 17.1-b03, mixed mode, 
sharing) 


一 


如 果 出 现 上 述 JDK 版 本 信息 ， 说 明 当 前 安装 的 JDK 并 未 设置 成 Ubuntu 系统 默认 的 JDK， 
接 下 来 还 需要 手动 将 安装 的 JDK 设 置 成 系统 默认 的 JDK。 











(5) 手动 设置 系统 默认 JDK 





在 终端 依次 输入 命令 : 


一 

sudo update-alternatives--install/usr/bin/java 
java/usr/lib/jvm/jdk/bin/java 300 

sudo update-alternatives--install/usr/bin/javac 
javac/usr/lib/jvm/jdk/bin/javac 300 

sudo update-alternatives--config java 


—_—_—_—_—__OOOOOOO—€8O3Oo = 


接 下 来 输入 java-version 就 可 以 看 到 所 安装 的 JDK 的 版 本 信息 了 。 


2.1.2 配置 SSH 免 密码 登录 








同样 以 Ubuntu 为 例 ， 假 设 用户 名 为 u: 











1) 确认 已 经 连接 上 互联 网 ， 然 后 输入 命令 : 


一， 
sudo apt-get install ssh 
| 











2) 配置 为 可 以 免 密码 登录 本 机 。 首 先 查 看 在 u 用 户 下 是 否 存在 .sh 文件 夹 《注意 ssh 前 面 
有 “.“， 这 是 一 个 隐藏 文件 夹 )， 输 入 命令 : 











[| 
ls-a/home/u 


ee | 














般 来 说 ， 安 装 SSH 时 会 自动 在 当前 用 户 下 创建 这 个 隐藏 文件 来， 如 果 没 有 ， 可 以 手动 
创建 一 个 。 











接 下 来 ， 输 入 命令 (注意 下 面 命 令 中 不 是 双 引 号 ， 是 两 个 单 引号 ) : 





ww | 
ssh-keygen-t dsa-P''-f~/.ssh/id_dsa 
SSSSSS—SS=—=S=S==—S=—_=S=S=_—S=S=S=_—S=—=S=—=S=—S=SS=SS=SSSSSSSSSSSSSsF 





解释 一 下 ，ssh-keygen 代 表 生 成 密 钥 ; -t (注意 区 分 大 小 写 ) 表示 指定 生成 的 密 钥 类 型 
dsa 是 dsa 密 钥 认证 的 意思 ， 即 密 钥 类 型 ，-P 用 于 提供 密语 ，-f 指 定 生成 的 密 钥 文件 。 在 
Ubuntu 中 ， 一 代表 当前 用 户 文件 夹 ， 此 处 即 homem。 





















































这 个 命令 会 在 .ssh 文 件 夹 下 创建 id_dsa 及 id_dsa.pub 两 个 文件 ， 这 是 SSH 的 一 对 私 钥 和 公 
钥 ， 类 似 于 钥匙 和 锁 ， 把 id_dsa.pub〈 公 钥 ) 追加 到 授权 的 ley 中 去 。 








输入 命令 : 


| 
cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys 
I 




















这 条 命令 的 功能 是 把 公 钥 加 到 用 于 认证 的 公 钥 文件 中 ， 这 里 的 authorized_leys 是 用 于 认 
证 的 公 钥 文件 。 























至 此 免 密码 登录 本 机 已 配置 完毕 。 
3) 验证 SSH 是 否 已 安装 成 功 ， 以 及 是 否 可 以 免 密码 登录 本 机 。 


输入 命令 : 


es 
ssh-version 


OpenSSH 5.8P1 Debian-7ubuntul, OpenSSL 1.0.0e 6 Sep 2011 
Bad escape character'rsion'. 


二 一 


显示 SSH 已 经 安装 成 功 了 。 


输入 命令 : 


[= | 
ssh localhost 


ee | 
会 有 如 下 显示 : 


— = = = —O—OFOFO— ow 

The authenticity of host'localhost (: 1) 'can't be 
established. 

RSA key fingerprint is 8b: c3: 51: a5: 2a: 31: b7: 74: 06: 9d: 
62: 04: 4f: 84: £8: 77. 

Are you sure you want to continue connecting (yes/no) ?yes 

Warning: Permanently added'localhost' (RSA) to the list of 
known hosts. 

Linux master 2.6.31-14-generic#48-Ubuntu SMP Fri Oct 16 14: 
04: 26 UTC 2011 i686 

To access official Ubuntu documentation, please visit: 

http: //help.ubuntu.com/ 


Last login: Sat Feb 18 17: 12: 40 2012 from master 
admin@Hadoop: ~$ 


ny 

这 说 明 已 经 安装 成 功 ， 第 一 次 登录 时 会 询问 是 否 继续 链接 ， 输 入 yes 即 可 进入 。 实 际 
上 ， 在 Hadoop 的 安装 过 程 中 ， 是 否 免 密码 登录 是 无 关 紧 要 的 ， 但 是 如 果 不 配置 免 密码 登录 ， 
每 次 启动 Hadoop 都 需要 输入 密码 以 登录 到 每 台 机 器 的 DataNode 上， 考虑 到 一 般 的 Hadoop 集 
群 动 辆 拥有 数 百 或 上 千 台 机 器 ， 因 此 一 般 来 说 都 会 配置 SSH 的 免 密 码 登 录 。 

















2.1.3 ”安装 并 运行 Hadoop 


介绍 Hadoop 的 安装 之 前 ， 先 介绍 一 下 Hadoop 对 各 个 节点 的 角色 定义 。 


Hadoop 分 别 从 三 个 角度 将 主机 划分 为 两 种 角色 。 第 一 ， 最 基本 的 划分 为 Master 和 Slave， 


即 主 人 与 奴隶 ; 
件 系统 中 ， 目 录 





第 二 ， 从 HDFS 的 角度 ， 将 主机 划分 为 NameNode 和 DataNode (在 分 布 式 文 
的 管理 很 重要 ， 管 理 目录 相当 于 主人 ， 而 NameNode 就 是 目录 管理 者 ) ; 第 


三 ， 从 MapReduce 的 角度 ， 将 主机 划分 为 JobTracker 和 TaskTracker (一 个 Job 经 常 被 划分 为 多 
个 Task， 从 这 个 角度 不 难 理解 它们 之 间 的 关系 〉。 




















Hadoop 有 官方 发 行 版 与 cloudera 版 ， 其 中 cloudera 版 是 Hadoop 的 商用 版 本 ， 这 里 先 介 绍 
Hadoop 官 方 发 行 版 的 安装 方法 。 











Hadoop 有 三 种 运行 方式 ;单机 模式 、 伪 分 布 式 与 完全 分 布 式 。 乍 看 之 下 ， 前 两 种 方式 并 


不 能 体现 云 计 算 





的 优势 ， 但 是 它们 便于 程序 的 测试 与 调试 ， 所 以 还 是 很 有 意义 的 。 


你 可 以 在 以 下 地 址 获得 Hadoop 的 官方 发 行 版 : 


http: //www.apache.org/dy n/closer.cgi/Hadoop/core/。 





下 载 hadoop-1.0.1.tar.gz 并 将 其 解压 ， 本 书后 续 都 默认 将 Hadoop 解 压 到 /home/w/ 目 录 下 。 





(1) 单机 模式 配置 方式 


安装 单机 模式 的 Hadoop 无 须 配 置 ， 在 这 种 方式 下 ，Hadoop 被 认为 是 一 个 单独 的 Java 进 




















程 ， 这 种 方式 经 常用 来 调试 。 





(2) 伪 分 布 式 Hadoop 配 置 





可 以 把 伪 分 布 式 的 Hadoop 看 做 只 有 一 个 节点 的 集群 ， 在 这 个 集群 中 ， 这 个 节点 既是 
Master， 也 是 Slave; 既是 NameNode， 也 是 DataNode; 既是 JobTracker， 也 是 TaskTracker。 








伪 分 布 式 的 配置 过 程 也 很 简单 ， 只 需要 修改 几 个 文件 。 
进入 conf 文 件 夹 ， 修 改 配置 文件 。 


指定 JDK 的 安装 位 置 : 


| 
Hadoop-env.sh: 
export JAVA_HOME=/usr/lib/jvm/jdk 
TE | 


这 是 Hadoop 核 心 的 配置 文件 ， 这 里 配置 的 是 HDFS (Hadoop 的 分 布 式 文件 系统 ) 的 地 址 
及 端口 号 。 


| 
conf/core-site.xml: 
<configuration> 
<property> 
<name>fs.default.name</name> 
<value>hdfs: //localhost: 9000</value> 
</property> 
</configuration> 


一 








以 下 是 Hadoop 中 HDFS 的 配置 ， 配 置 的 备份 方式 默认 为 3， 在 单机 版 的 Hadoop 中 ， 需 要 
将 其 改 为 1。 














conf/hdfs-site.xml: 
<configuration> 

<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 

</configuration> 


5 





以 下 是 Hadoop 中 MapReduce 的 配置 文件 ， 配 置 JobTracker 的 地 址 及 端口 。 


pl 
conf/mapred-site.xml: 
<configuration> 
<property> 


<name>mapred.job.tracker</name> 
<value>localhost: 9001</value> 
</property> 

</configuration> 


1 





接 下 来 ， 在 启动 Hadoop 前 ， 需 要 格式 化 Hadoop 的 文件 系统 HDFS。 进 入 Hadoop 文 件 夹 ， 
输入 命令 : 


和 
bin/Hadoop NameNode-format 


一 


格式 化 文件 系统 ， 接 下 来 启动 Hadoop。 


输入 命令 ， 启 动 所 有 进程 : 


ee | 
bin/start-all.sh 


ee | 


最 后 ， 验 证 Hadoop 是 否 安装 成 功 。 


打开 浏览 器 ， 分 别 输入 网 址 : 
E 


http: //localhost: 50030 (MapReduce 的 Web 页 面 ) 
http: //localhost: 50070 (HDFS 的 Web 页 面 ) 


| | 


如 果 都 能 查看 ， 说 明 Hadoop 已 经 安装 成 功 。 


对 于 Hadoop 来 说 ， 启 动 所 有 进程 是 必须 的 ， 但 是 如 果 有 必要 ， 你 依然 可 以 只 启动 
HDFS (start-dfs.sh) 或 MapReduce (start-mapred.sh) 。 





关于 完全 分 布 式 的 Hadoop 会 在 2.4 节 详 述 。 


2.2 在 Mac OSX 上 安装 与 配置 Hadoop 











由 于 现在 越 来 越 多 的 人 使 用 Mac Book， 故 笔者 在 本 章 中 增加 了 在 Mac OSX 上 安装 与 配 
置 Hadoop 的 内 容 ， 供 使 用 Mac Book 的 读者 参考 。 



































2.2.1 ”安装 Homebrew 











Mac OSX 上 的 Homebrew 是 类 似 于 Ubuntu 下 apt 的 一 种 软件 包 管 理 器 ， 利 用 它 可 以 自动 下 
载 和 安装 软件 包 ， 安 装 Homebrew 之 后 ， 就 可 以 使 用 Homebrew 自 动 下 载 安装 Hadoop。 安 装 
Homebrew 的 步骤 如 下 : 


























1) 从 Apple 官 方 下 载 并 安装 内 置 GCC 编 译 器 一 Xcode 〈 现 在 版 本 为 4.2) 。 安 装 Xcode 主 
要 是 因为 一 些 软件 包 的 安装 依赖 于 本 地 环境 ， 需 要 在 本 地 编译 源码 。Xcode 的 下 载 地 址 为 
https: //developer.apple.com/xcode/. 














2) 使 用 命令 行 安装 Homebrew， 输 入 命令 : 











ee | 
/usr/bin/ruby-e"$ (/usr/bin/curl-fksSL 

https: //raw.github.com/mxcl/homebrew/ 
master/Library/Contributions/install_homebrew.rb) " 

RE 











这 个 命令 会 将 Homebrew 安 装 在 /usr/local 目 录 下 ， 以 保证 在 使 用 Homebrew 安 装 软件 包 时 
不 用 使 用 sudo 命 令 。 安 装 完成 后 可 以 使 用 brew-v 命 令 查看 是 否 安 装 成 功 。 






























































2.2.2 ”使 用 Homebrew 安 装 Hadoop 





安装 完了 omebrew 之 后 ， 就 可 以 在 命令 行 输入 下 面 的 命令 来 自动 安装 Hadoop。 自 动 安装 
的 Hadoop 在 /usrlocaJCellarhadoop 路 径 下 。 需 要 注意 的 是 ， 在 使 用 brew 安 装 软件 时 ， 会 自动 
检测 安装 包 的 依赖 关系 ， 并 安装 有 依赖 关系 的 包 ， 在 这 里 brew 就 会 在 安装 Hadoop 时 自动 下 载 
JDK 和 SSH， 并 进行 安装 。 

















u: | 
brew install hadoop 


一 























2.2.3 配置 SSH 和 使 用 Hadoop 


接 下 来 需要 配置 SSH 免 密码 登录 和 启动 Hadoop。 
同 ， 故 这 里 不 再 更 述 。 




















F} 


其 步 又 和 内 容 与 Linux 的 配置 完全 相 


2.3 在 Windows 上 安装 与 配置 Hadoop 





2.3.1 安装 JDK 1.6 或 更 高 版 本 


相对 于 Linux, JDK 在 Windows 上 的 安装 过 程 更 容易 ， 你 可 以 在 
http: Wwwwjava.comy/zh CN/downloadmanualjsp 下 载 到 最 新 版 本 的 JDK。 这 里 再 次 申明 ， 
Hadoop 的 编译 及 MapReduce 程 序 的 运行 ， 很 多 地 方 都 需要 使 用 JDK 的 相关 工具 ， 因 此 只 安装 
JRE 是 不 够 的 。 





























安装 过 程 十 分 简单 ， 运 行 安装 程序 即 可 ， 程 序 会 自动 配置 环境 变量 (在 之 前 的 版 本 中 还 
没有 这 项 功能 ， 新 版 本 的 JDK 已 经 可 以 自动 配置 环境 变量 了 ) 。 





2.3.2 ”安装 Cygwin 





Cygwin 是 在 Windows 平 台 下 模拟 UNIX 环 境 的 一 个 工具 ， 只 有 通过 它 才 可 以 在 Windows 
环境 下 安装 Hadoop。 可 以 通过 下 面 的 链接 下 载 Cy gwin: http: /www.cygwin.com/。 











双击 运行 安装 程序 ， 选 择 install from internet。 





根据 网 络 状况 ， 选 择 合适 的 源 下 载 程序 。 














进入 select packages 界 面 ， 然 后 进入 Net， 选 中 OpenSSL 及 OpenSSH (如 图 2-1 所 示 ) 。 





GEGE Def walt 
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图 2-1 4 openssl Ropenssh 














如 果 打 算 在 Eclipse 上 编译 Hadoop， 还 必须 安装 Base Category 下 的 sed〈 如 图 2-2 所 示 ) 。 


日 bw Q Jaf t 





éiri- LOTIk sed The GRU cod ttres efi toe 


图 2-2 A itsed 


另外 建议 安装 Editors Category 下 的 vim， 以 便 在 Cygwin 上 直接 修改 配置 文件 。 


2.3.3 配置 环境 变量 





依次 右 击 “ 我 的 电脑 *"， 在 弹出 的 快捷 菜单 中 依次 单 击 “属性 "一 “高 级 系统 设置 "一 “环境 
变量 "， 修 改 环境 变量 里 的 path 设 置 ， 在 其 后 添加 Cy gwin 的 bin 目 录 。 

















2.3.4 安装 sshd 服 务 


单 击 桌面 上 的 Cygwin 图 标 ， 启 动 Cygwin， 执 行 ssh-hostconfig 命 令 ， 当 要 求 输入 YesNo 
时 ， 选 择 输入 No。 当 显示 “Have fun" 时 ， 表 示 sshd 服 务 安装 成 功 。 


2.3.5 启动 sshd 服 务 











在 桌面 上 的 “我 的 电脑 "图 标 上 右 击 ， 在 弹出 的 快捷 菜单 中 单 击 “ 管 理 ” 命 令 ， 启 动 
CYGWIN sshd 服 务 ， 或 者 直接 在 终端 下 输入 下 面 的 命令 启动 服务 : 
| 


net start sshd 
一 二 > 了 > 了 了 了 > 了 了 > 了 > 了 > 了 > 了 > 一 一 | 








2.3.6 配置 SSH 免 密码 登录 


执行 ssh-keygen 命 令 和 





E 成 密 钥 文件 。 按 如 下 命令 生成 authorized_keys 文 件 : 


————————————————— M MŇĖ 
cd~/.ssh/ 


cp id_rsa.pub authorized_keys 


= 二 


完成 上 述 操作 后 ， 执 行 exit 命 令 先 退 出 Cygwin 窗 口 ， 如 果 不 执行 这 一 步 操 作 ， 后 续 的 操 
作 可 能 会 遇 到 错误 。 











接 下 来 ， 重 新 运行 Cygwin， 执 行 ssh localhost 命 令 ， 在 第 一 次 执行 时 会 有 提示 ， 然 后 输入 
yes， 直 接 回 车 即 可 。 





2.3.7 ”安装 并 运行 Hadoop 


在 Windows 上 安装 Hadoop 与 在 Linux 上 安装 的 过 程 一 样 ， 这 里 就 不 再 袭 述 了 ， 不 过 有 两 
点 需要 注意 : 


1) 在 配置 conf/hadoop-evn.sh 文 件 中 Java 的 安装 路 径 时 ， 如 果 路 径 之 间 有 空格 ， 需 要 将 
整个 路 径 用 双 引 号 引起 来 。 例 如 可 以 进行 配置 : 


一 
export JAVA_HOME="/cygdrive/c/Program Files/Java/jdk1.6.0_22" 


一 



































其 中 cygdrive 表 示 安 装 cygdrive 之 后 系统 的 根 目 录 。 























另外 一 种 办 法 是 在 cygwin 窗 口 使 用 类 似 下 面 的 命令 创建 文件 链接 ， 使 后 面 的 文件 指向 
Windows 下 安装 的 JDK， 然 后 将 conf/hadoop-env.sh 中 JDK 配 置 为 此 链接 文件 : 





eee 
$ln-s/cygdrive/c/Program\Files/Java/jdk1.6.0_22/usr/local/jdk 


= = 二 
2) 在 配置 conf/mapred-site.xml 文 件 时 ， 应 增加 对 mapred.child.tmp 属 性 的 配置 ， 配 置 的 
值 应 为 一 个 Linux 系 统 的 绝对 路 径 ， 如 果 不 配置 ，Job 在 运行 时 就 会 报错 。 具 体 配 置 为 : 
二 = 
<property> 
<name>mapred.child.tmp</name> 
<value>/home/Administrator/hadoop-1.0.1/tmp</value> 
</property> 
es | 


同样 需要 在 confjcore-site.xml 文 件 中 为 hadoop.tmp.dir 属 性 配置 一 个 和 mapred.child.tmp 属 
性 相似 的 绝对 路 径 。 





2.4 安装 和 配置 Hadoop 集 群 


2.4.1 网 络 拓扑 











通常 来 说 ， 一 个 Hadoop 的 集群 体系 结构 由 两 层 网 络 拓扑 组 成 ， 如 图 2-3 所 示 。 结 合 实际 
应 用 来 看 ， 每 个 机 架 中 会 有 30 一 40 台 机 器 ， 这 些 机 器 共享 一 个 1GB 带 宽 的 网 络 交换 机 。 在 所 
有 的 机 架 之 上 还 有 一 个 核心 交换 机 或 路 由 器 ， 通 常 来 说 其 网 络 交换 能 力 为 1GB 或 更 高 。 可 以 
很 明显 地 看 出 ， 同 一 个 机 架 中 机 器 节点 之 间 的 带宽 资源 肯定 要 比 不 同 机 架 中 机 器 节点 间 
富 。 这 也 是 Hadoop 随 后 设计 数据 读 写 分 发 策略 要 考虑 的 一 个 重要 因素 。 
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图 2-3 Hadoop 的 网 络 拓扑 结构 


2.4.2 ”定义 集群 拓扑 








在 实际 应 用 中 ， 为 了 使 Hadoop 集 群 获得 更 高 的 性 能 ， 读 者 需要 配置 集群 ， 使 Hadoop 能 
够 感知 其 所 在 的 网 络 拓扑 结构 。 当 然 ， 如 果 集 群 中 机 器 数量 很 少 且 存在 于 一 个 机 架 中 ， 那 么 
就 不 用 做 太 多 额外 的 工作 ;而 当 集群 中 存在 多 个 机 架 时 ， 就 要 使 Hadoop 清 晰 地 知道 每 台 机 器 
所 在 的 机 架 。 随 后 ， 在 处 理 MapReduce 任 务 时 ，Hadoop 就 会 优先 选择 在 机 架 内 部 做 数据 传 
输 ， 而 不 是 在 机 架 间 传输 ， 这 样 就 可 以 更 充分 地 使 用 网 络 带 宽 资 源 。 同 时 ，HDFS 可 以 更 加 
智能 地 部 署 数据 副本 ， 并 在 性 能 和 可 靠 性 间 找 到 最 优 的 平衡 。 
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在 Hadoop 中 ， 网 络 的 拓扑 结构 、 机 器 节点 及 机 架 的 网 络 位 置 定 位 都 是 通过 树 结构 来 描述 
的 。 通 过 树 结构 来 确定 节点 间 的 距离 ， 这 个 距离 是 Hadoop 做 决策 判断 时 的 参考 因素 。 
NameNode 也 是 通过 这 个 距离 来 决定 应 该 把 数据 副本 放 到 哪里 的 。 当 一 个 Map 任 务 到 达 时 ， 
它 会 被 分 配 到 一 个 TaskTracker 上 运行 ，JobTracker 节 点 则 会 使 用 网 络 位 置 来 确定 Map 任 务 执 
行 的 机 器 节点 。 






































在 图 2-3 中 ， 笔 者 使 用 树 结构 来 描述 网 络 拓扑 结构 ， 主 要 包括 两 个 网 络 位 置 : 交换 机 /机 
架 1 和 交换 机 /机 架 2。 因 为 图 2-3 中 的 集群 只 有 一 个 最 高 级 别 的 交换 机 ， 所 以 此 网 络 拓扑 可 简 
化 描述 为 /机 架 1 和 /机 架 2。 





























在 配置 Hadoop 时 ，Hadoop 会 确定 节点 地 址 和 其 网 络 位 置 的 映射 ， 此 映射 在 代码 中 通过 
Java 接 口 DNSToSwitchMaping 实 现 ， 代 码 如 下 : 


ee | 
public interface DNSToSwitchMapping{ 
public List<String>resolve (List<String>names) ; 
} 
| 


其 中 参数 names 是 IP 地 址 的 一 个 List 数 据 ， 这 个 函数 的 返回 值 为 对 应 网 络 位 置 的 字符 串 列 
表 。 在 opology.node.switch.mapping.impl 中 的 配置 参数 定义 了 一 个 DNSToSwitchMaping 接 口 的 
实现 ，NameNode 通 过 它 确定 完成 任务 的 机 器 节点 所 在 的 网 络 位 置 。 








在 图 2-3 的 实例 中 ， 可 以 将 节点 1、 节 点 2、 节 点 3 映射 到 /机 架 1 中 ， 节 点 4、 节 点 5、 节 点 6 
映射 到 /机 架 2 中 。 上 在 实际 应 用 中 ， 管 理 员 可 能 不 需要 手动 做 额外 的 工作 去 配置 这 些 映 
射 关 系 ， 系 统 有 一 个 默认 的 接口 实现 ScriptBasedMapping。 它 可 以 运行 用 户 自 定义 的 一 个 脚 
本 区 完成 映射 。 如 果 用 户 没有 定义 映射 ， 它 会 将 所 有 的 机 器 节点 映射 到 一 个 单独 的 网 络 位 置 
默认 的 机 架 上 ， 如 果 用 户 定义 了 映射 ， 那 么 这 个 脚本 的 位 置 由 topology.scriptfile.name 的 属 
性 控制 。 脚 本 必须 获取 一 批 主机 的 IP 地 址 作为 参数 进行 映射 ， 同 时 生成 一 个 标准 的 网 络 位 置 
给 输出 。 
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2.4.3 ”建立 和 安装 Cluster 


要 建立 Hadoop 集 群 ， 首 先 要 做 的 就 是 选择 并 购买 机 器 ， 在 机 器 到 手 之 后 ， 

















就 要 进行 网 络 


部 署 并 安装 软件 了 。 安 装 和 配置 Hadoop 有 很 多 方法 ， 这 部 分 内 容 在 前 文 已 经 详细 讲解 过 ( 见 





2.1 节 、2.2 节 和 2.3 节 ) ， 同 时 还 告诉 了 读者 在 实际 部 署 时 应 该 考虑 的 情况 。 








为 了 简化 我 们 在 每 个 机 器 节点 上 安装 和 维护 相同 软件 的 过 程 ， 通 常会 采 








自动 安装 法 ， 








比如 Red HatLinux 下 的 Kiclstart 或 Debian 的 全 程 自动 化 安装 。 这 些 工具 先 会 记录 你 的 安装 过 
程 ， 以 及 你 对 选项 的 选择 ， 然 后 根据 记录 来 自动 安装 软件 。 同 时 它们 会 在 每 个 进程 结尾 提供 
一 个 钩子 执行 脚本 ， 在 对 那些 不 包含 在 标准 安装 中 的 最 终 系统 进行 调整 和 自 定义 时 这 是 非常 




















有 用 的 。 








下 面 我 们 将 具体 介绍 如 何 部 署 和 配置 Hadoop。Hadoop 为 了 应 对 不 同 的 使 





























需求 〈 不 管 


是 开发 、 实 际 应 用 还 是 研究 ) ， 有 着 不 同 的 运行 方式 ， 包 括 单机 式 、 单 机 伪 分 布 式 、 完 全 分 














布 式 等 。 前 面 已 经 详细 介绍 了 在 Windows、MacOSX 和 Linux 下 Hadoop 的 安装 和 配置 。 下 面 将 


对 Hadoop 的 分 布 式 配置 做 具体 的 介绍 。 


1.Hadoop 集 群 的 配置 








在 配置 伪 分 布 式 的 过 程 中 ， 大 家 也 许 会 觉得 Hadoop 的 配置 很 简单 ， 但 那 只 是 最 基本 的 配 


置 。 


Hadoop 的 配置 文件 分 为 两 类 。 


1) 只 读 类 型 的 默认 文件 : src/core/core-defaultxm1l、src/hdfs/hdfs-defaultxml、 


src/mapred/mapred-default.xml, conf/mapred-queues.xml. 


2) 定位 (site-specific) 设置 : conf/core-site.xml, conf/hdfs-site.xml, conf/mapred- 


site.xml、conf/mapred-queues.xml。 


(在 bin/ 文 件 夹 内 


a 


44 





44 


除 此 之 外 ， 也 可 以 通过 设置 conf/Hadoop-env.sh 来 为 Hadoop 的 守护 进程 设置 环境 变量 





UY 


Hadoop 是 通过 org.apache.hadoop.conf.configuration 来 读 取 配置 文件 的 。 在 Hadoop 的 设置 





Ph，Hadoop 的 配置 是 通过 资源 (resource) 定位 的 ， 每 个 资源 由 一 系列 namevalue 对 以 XML 
文件 的 形式 构成 ， 它 以 一 个 字符 串 命名 或 以 Hadoop 定 义 的 Path 类 命名 〈 这 个 类 是 用 于 定义 文 
系统 内 的 文件 或 文件 夹 的 ) 。 如 果 是 以 字符 串 命名 的 ，Hadoop 会 通过 classpath 调 用 此 又 
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如 果 以 Path 类 命名 ， 那 么 Hadoop 会 直接 在 本 地 文件 系统 中 





RACE. 





资源 设 定 有 两 个 特点 ， 下 面 进行 具体 介绍 。 


1) Hadoop 人 允许 定义 最 终 参 数 (final parameters) ， 如 果 任 意 资源 声明 了 final 这 个 值 ， 


那么 之 后 加 载 的 任何 资源 都 不 能 改变 这 个 值 ， 定 义 最 终 资源 的 格式 是 这 样 的 : 


二 一 


<property> 
<name>dfs.client.buffer.dir</name> 
<value>/tmp/Hadoop/dfs/client</value> 
<fnal>true</fnal>//jE RIX MA 
</property> 


二 一 














2) Hadoop 人 允许 参 数 传递 ， 示 例如 下 ， 当 tenpdir 被 调用 时 ，basedir 会 作为 值 被 调用 。 























| | 


<property> 

<name>basedir</name> 
<value>/user/${user.name}</value> 
<property> 

<property> 

<name>tempdir</name> 
<value>${basedir}/tmp</value> 
</property> 


eo 二 二 





前 面 提 到 ， 读 者 可 以 通过 设置 conf/Hadoop-env.sh 为 Hadoop 的 守护 进程 设置 环境 变量 。 





一 般 来 说 ， 大 家 至 少 需 要 在 这 里 设置 在 主机 上 安装 的 JDK 的 位 置 (JAVA_HOME) ， 以 使 
Hadoop 找 到 JDK。 大 家 也 可 以 在 这 里 通过 HADOOP_*_OPTS 对 不 同 的 守护 进程 分 别 进行 设 





置 ， 如 表 2-1 所 示 。 


表 2-1 Hadoop 的 守护 进程 配置 表 





守护 进程 “Dacmon) 配置 选项 (Configure Options 

















NameNode | HADOOP_NAMENODE OPTS 

DataNode | HADOOP_DATANODE OPTS 
SecondaryNameNode | HADOOP_SECONDARYNAMENODE OPTS 
JobTracker | HADOOP JOBTRACKER OPTS 

TaskTracker HADOOP_TASKTRACKER OPTS 

















例如 ， 如 果 想 设置 NameNode 使 用 parallelGC， 那 么 可 以 这 样 写 : 





[= | 
export HADOOP NameNode OPTS="-XX: 
+UseParallelGC$ {HADOOP_ NAMENODE OPTS}" 


Ci 











在 这 里 也 可 以 进行 其 他 设置 ， 比 如 设置 Java 的 运行 环境 (HADOOP_OPTS) ， 设 置 日 志 
文件 的 存放 位 置 CHADOOP_LOG_DIR) ， 或 者 SSH 的 配置 CHADOOP_SSH_OPTS) ， 等 


Ate 
可 。 





KF conf/core-site.xml, conf/hdfs-site.xml, conf/mapred-site.xm lf AC 4 Wi 4é2-2 ~ 422-4 
所 示 。 


表 2-2 conf/core-site.xml 的 配置 








Sk 


fs.default.name 


Parameter) Value) 






值 
NameNode 的 IP 地址 及 端口 





表 2-3 conflhdfs-site.xml 的 配置 





参数 (Parameter) ffi (Value) 
dfs.name.dir | NameNode 存 外 名 字 空 间 及 无 报 日 志 的 位 置 





dfs.data dir DataNode 存储 数据 块 的 位 置 





可 以 根据 读者 的 需要 决定 采 


表 2-4 confimapred-site.xml 的 配置 


参数 ( Parameter) 


值 (Value) 





maprcducejobtrackeraddress 


JobTracker 的 IP 地 址 及 端口 





mapreduce. jobtracker.system.dir 


MapReduce 在 HDFS 上 存储 文件 的 位 置 ， 
mapredisysteny 


TA An Hadoop’ 





mapreduce.cluster.local.dir 


MapReduce 的 绥 存 数据 存储 在 文件 系统 中 的 位 置 





mapred.tasktracker. {map|reduce}.tasks.maximum 


每 台 Task Tracker 所 能 运行 的 Map w& Reduce 的 task WE BCR 





dfs.hosts/dfs.hosts.exclude 


mapreduce.jobtracker.hosts.filename/ 
mapreduce.jobtracker-hosts.exclude.filename 


允许 止 的 DataNode 列表 


允许 或 禁止 的 TaskTrackers 列表 








mapreduce.cluster.job-authorization-cnabled 





型 ， 表 示 Job 存 取 控制 列表 是 否 支持 对 Job 的 观察 和 








一 般 而 言 ， 除 了 规定 端口 、IP 地 址 、 














文件 的 存储 位 置 外 ， 其 他 配置 都 不 是 必须 修改 的 ， 

















默认 配置 还 是 自己 修改 。 还 有 一 点 需要 注意 的 是 ， 以 上 配置 都 


被 默认 为 最 终 参 数 (final parameters) ， 这 些 参数 都 不 可 以 在 程序 中 再 次 修改 。 





接 下 来 可 以 看 一 下 conf/mapred-queues.xml 的 配置 列表 ， 如 表 2-5 所 示 。 


表 2-5 confimapred-queuves.xml 的 配置 





RR: (Tag/Attribute ) 


fff (Value) 




















queues 配置 文件 的 根 元 素 

= 布尔 类 型 <queucs> AMM, ART WA SRE u 
See 制 Job 的 提交 及 所 有 queue 的 管 = 
queue <queues> 的 子 元 素 ， 定 义 系统 中 的 queue ERK 
name <queuc> 的 子 元 素 ， 代 表 名 字 Gi 
state <queue> 的 子玉 代表 queue 的 状态 是 








<queue> 的 子 元 素 
的 名 单列 表 


acl-submit-job 


， 定 义 一 个 能 提交 Job 1% queue 的 用 户 或 组 是 





<queue> 的 子 元 素 





acl-administer-job 


， 定 义 一 个 能 更 改 Job 的 优先 级 或 能 杀 死 已 捉 























HR queue 的 Job 用 户 或 组 的 名 半 列 表 
properties <queues> 的 子 元 素 ， 定 义 优先 调度 规划 无 意义 
property <properties> 的 子 无 意义 
key roperty> 的 子 元 素 调度 程序 指定 
value property> 的 属性 调度 程序 指定 


相信 大 家 不 难 猜 出 表 2-5 的 conf/mapred-queues.xml 文 件 是 























来 设置 MapReduce 系 统 


的 队列 顺序 的 。queues 是 JobTraclker 中 











来 做 什么 的 ， 这 个 文件 就 是 
的 一 个 抽象 概念 ， 可 以 在 一 

















> 


定 程度 上 管理 Job， 因 此 它 为 管理 员 提 供 了 一 种 管理 Job 的 方式 。 这 种 控制 是 常见 且 有 效 的 ， 
例如 通过 这 种 管理 可 以 把 不 同 的 用 户 划分 为 不 同 的 组 ， 或 分 别 赋 予 他 们 不 同 的 级 别 ， 并 且 会 
优先 执行 高 级 别 用 户 提交 的 Job。 












































按照 这 个 思想 ， 很 容易 想到 三 种 原则 : 

















同一 类 用 户 提交 的 Job 统 一 提交 到 同一 个 queue 中 ; 





H 











Ni 
ot 
a 
=] 


间 较 长 的 Job 可 以 提交 到 同一 个 queue 中 ; 











巴 很 快 就 能 运行 完成 的 Job 划 分 到 一 个 queue 中 ， 并 且 限 制 queue 中 Job 的 数量 上 限 。 











queue 的 有 效 性 很 依赖 在 JobTracker 中 通过 mapreduce.jobtracker.taskscheduler 设 置 的 调度 
规则 (scheduler〉。 一 些 调度 算法 可 能 只 需要 一 个 queue， 不 过 有 些 调度 算法 可 能 很 复杂 ， 
需要 设置 很 多 queue。 


对 queue 大 部 分 设置 的 更 改 都 不 需要 重新 启动 MapReduce 系 统 就 可 以 生效 ， 不 过 也 有 一 
些 更 改 需要 重启 系统 才能 有 效 ， 具 体 如 表 2-5 所 示 。 














conf/mapred-queues. xml 的 文件 配置 与 其 他 文件 略 有 不 同 ， 配 置 格式 如 下 : 


| 
<queues aclsEnabled="$aclsEnabled"> 
<queue> 
<name> $queue-name</name> 
<state>S$state</state> 
<queue> 
<name>S$child-queuel</name> 
<properties> 
<property key="$key"value="$value"/> 
</properties> 
<queue> 
<name>S$grand-child-queuel</name> 
</queue> 
</queue> 
<queue> 


<name>S$child-queue2</name> 


<queue> 

<name>$leaf-queue</name> 
<acl-submit-job>$acls</acl-submit-job> 
<acl-administer-jobs>$acls</acl-administer-jobs> 
<properties> 

<property key="$key"value="$value"/> 
</properties> 

</queue> 

</queue> 

</queues> 


| Pem!) 











以 上 这 些 就 是 Hadoop 配 置 的 主要 内 容 ， 其 他 关于 Hadoop 配 置 方面 的 信息 ， 诸 如 内 存 配 
置 等 ， 如 果 有 兴趣 可 以 参阅 官方 的 配置 文档 。 





2. 一 个 具体 的 配置 
为 了 方便 痔 述 ， 这 里 只 搭建 一 个 有 三 台 主机 的 小 集群 。 


相信 大 家 还 没有 忘记 Hadoop 对 主机 的 三 种 定位 方式 ， 分 别 为 Master 和 Slave, JobTracker 
和 TaskTracker, NameNode 和 DataNode。 在 分 配 IP 地 址 时 我 们 顺便 规定 一 下 角色 。 


[R 


下 面 为 这 三 台 机 器 分 配 IP 地 址 及 相应 的 角色 : 





oo 
10.37.128.2-master, namonode, jobtracker—master (主机 名 ) 
10.37.128.3-slave, dataNode, tasktracker-slavel (主机 名 ) 
10.37.128.4-slave, dataNode, tasktracker—slave2 (主机 名 ) 


一 











首先 在 三 台 主 机 上 创建 相同 的 用 户 〈 这 是 Hadoop 的 基本 要 求 ) : 








1) 在 三 台 主 机 上 均 安装 JDK 1.6， 并 设置 环境 变量 。 





2) 在 三 台 主 机 上 分 别 设置 /etc/hosts 及 /etc/hostname。 











hosts 这 个 文件 用 于 定义 主机 名 与 IP 地 址 之 间 的 对 应 关系 。 











/etc/hosts: 


一 
127.0.0.1 localhost 
10.37.128.2 master 
10.37.128.3 slavel 
10.37.128.4 slave2 


5 

















hostname 这 个 文件 用 于 定义 Ubuntu 的 主机 名 。 





/etc/hostname: 


一 
\ 你 的 主机 名 ”( 如 master，slavel 等 ) 
天 一 


3) 在 这 三 台 主 机 上 安装 OpenSSH， 并 配置 SSH 可 以 免 密 码 登 录 。 





安装 方式 不 再 歼 述 ， 建 立 一 /ssh 文 件 夹 ， 如 果 已 存在 ， 则 无 须 创建 。 生 成 密 钥 并 配置 
SSH 免 密码 登录 本 机 ， 输 入 命令 : 








| 
ssh-keygen-t dsa-P''-f~/.ssh/id_dsa 
cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys 


一 
将 文件 复制 到 两 台 Slave 主 机 相同 的 文件 夹 内 ， 输 入 命令 : 


SSS 
scp authorized_keys slavel: ~/.ssh/ 
scp authorized_keys slave2: ~/.ssh/ 


天 一 
查看 是 否 可 以 从 Master 主 机 免 密码 登录 Slave， 输 入 命令 : 


一 
ssh slavel 


ssh slave2 
TTT | 


4) 配置 三 台 主 机 的 Hadoop 文 件 ， 内 容 如 下 。 


conf/Hadoop-env. sh: 


A 
export JAVA_HOME=/usr/lib/jvm/jdk 


[| 
conf/core-site. xml: 


—SSSSSSSSSSqSqQqqeqqqSqqc33 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl1"?> 
<! --Put site-specific property overrides in this file.--> 
<configuration> 
<property> 
<name>fs.default.name</name> 
<value>hdfs: //master: 9000</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/tmp</value> 
</property> 
</configuration> 


一 
conf/hdfs-site. xml: 


—_—_—_—_—_—_—_—_—_—_——— | 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<! --Put site-specific property overrides in this file.--> 
<configuration> 
<property> 
<name>dfs.replication</name> 
<value>2</value> 
</property> 
</configuration> 


二 
conf/mapred-site. xml: 


一 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<! --Put site-specific property overrides in this file.--> 
<configuration> 

<property> 

<name>mapred.job.tracker</name> 

<value>master: 9001</value> 

</property> 

</configuration> 

conf/masters: 

master 

conf/slaves: 

slavel 

slave2 


和 


5) 启动 Hadoop。 


| 
bin/Hadoop NameNode-format 
bin/start-all.sh 


一 
你 可 以 通过 以 下 命令 或 者 通过 http: //master: 50070 及 http: //master: 50030 查 看 集群 状 


No 


m3 
Hadoop dfsadmin-report 


== 








2.5 日 志 分 析 及 几 个 小 技巧 





如 果 大 家 在 安装 的 时 候 遇 到 问题 ， 或 者 按 步 又 安装 完成 却 不 能 运行 Hadoop， 那 么 建议 仔 
细 查 看 日 志 信息 。Hadoop 记 录 了 详尽 的 日 志 信息 ， 日 志文 件 保存 在 logs 文 件 夹 内 。 




















无 论 是 启动 还 是 以 后 会 经 常用 到 的 MapReduce 中 的 每 一 个 Job， 或 是 HDFS 等 相关 信息 ， 
Hadoop 均 存 有 日 志文 件 以 供 分 析 。 








例如 : NameNode 和 DataNode 的 namespaceID 不 一 致 ， 这 个 错误 是 很 多 人 在 安装 时 都 会 
过 到 的 。 日 志 信 息 为 : 


[| 
java.io.IOException: Incompatible namespaceIDs 
in/root/tmp/dfs/data: namenode 
namespaceID=1307672299; datanode namespaceID=389959598 


若 HDFS 一 直 没 有 启动 ， 读 者 可 以 查询 日 志 ， 并 通过 日 志 进 行 分 析 ， 日 志 提 示 信 息 显示 
了 NameNode 和 DataNode 的 namespaceID 不 一 致 。 





这 个 问题 一 般 是 由 于 两 次 或 两 次 以 上 格式 化 NameNode 造 成 的 ， 有 两 种 方法 可 以 解决 ， 
第 一 种 方法 是 删除 DataNode 的 所 有 资料 ， 第 二 种 方法 就 是 修改 每 个 DataNode 的 
namespaceID〔 位 于 /dfs/data/current/VERSION 文 件 中 ) 或 修改 NameNode 的 














namespaceID 〈 位 于 /dfsname/currentVERSION 文 件 中 ) 。 使 其 一 致 。 

















下 面 这 两 种 方法 在 实际 应 用 也 可 能 会 用 到 。 














1) 重启 坏 掉 的 DataNode 或 JobTraclker。 当 Hadoop 集 群 的 某 单个 节点 出 现 问题 时 ， 一 般 
不 必 重 启 整个 系统 ， 只 须 重启 这 个 节点 ， 它 会 自动 连 入 整个 集群 。 








在 坏死 的 节点 上 输入 如 下 命令 即 可 : 


ee | 
bin/Hadoop-daemon.sh start datanode 
bin/Hadoop-daemon.sh start jobtracker 





和 











2) 动态 加 入 DataNode 或 TaskKTraclker。 下 面 这 条 命令 允许 用 户 动态 地 将 某 个 节点 加 入 到 
ERE. 











Nee 
lui 








eee 
bin/Hadoop-daemon.sh--config./conf start datanode 
bin/Hadoop-daemon.sh--config./conf start tasktracker 


aarm a) 


2.6 本 章 小 结 


本 章 主 要 i 








HET, HH 


FP 有 几 个 关键 点 ; 











解 了 Hadoop 的 安装 和 配置 过 程 。Hadoop 的 安装 过 程 并 不 复杂 ， 基 本 配置 也 











Hadoop 主 























是 用 Java 语 言 写 的 ， 它 无 法 使 用 一 般 Linux 预 装 的 OpenJDK， 因 此 在 安装 
Hadoop 前 要 先 安装 JDK (版 本 要 在 1.6 以 上 ) ; 


作为 分 布 式 系统 ，Hadoop 需 要 通过 SSH 的 方式 启动 处 于 slave 上 的 程序 ， 因 此 必须 安装 和 


配置 SSH 。 





由 此 可 见 ， 在 安装 Hadoop 前 需要 安装 JDK 及 SSH。 


Hadoop 在 Mac OSX 上 的 安装 与 Linux 雷 同 ， 在 Windows 系 统 上 的 安装 与 在 Linux 上 有 一 点 
不 同 ， 就 是 在 Windows 系 统 上 需要 通过 Cy gwin 模 拟 Linux 环 境 ， 而 SSH 的 安装 也 需要 在 安装 
Cy gwin 时 进行 选择 ， 请 不 要 忘 了 这 一 点 。 





集群 配置 只 要 记 住 conf/Hadoop-env.sh、conf/core-site.xml、conf/hdfs-site.xml、 














conf/mapred-site.xm1l、conf/mapred-queues.xml 这 5 个 文件 的 作用 即 可 ， 另 外 Hadoop 有 些 配置 


是 可 以 在 程序 





修改 的 ， 这 部 分 内 容 不 是 本 章 的 和 








和 点， 因此 没有 详细 说 明 。 


第 3 章 ”MapReduce 计 算 模 型 


本 章 内 容 


Eà 











为 什么 要 用 MapReduce 











MapReduce 计 算 模型 
MapReduce 任 务 的 优化 
Hadoop 流 


Hadoop Pipes 





2004 年 ，Google 发 表 了 一 篇 论文 ， 向 全 世界 的 人 们 介绍 了 MapReduce。 现 在 已 经 到 处 都 
有 人 在 谈论 MapReduce〔 微 软 、 雅 虎 等 大 公司 也 不 例外 ) 。 在 Google 发 表 论 文 时 ， 
MapReduce 的 最 大 成 就 是 重 写 了 Google 的 索引 文件 系统 。 而 现在 ， 谁 也 不 知道 它 还 会 取得 多 
大 的 成 就 。MapReduce 被 广泛 地 应 用 于 日 志 分 析 、 海 量 数据 排序 、 在 海量 数据 中 查找 特定 模 
式 等 场景 中 。Hadoop 根 据 Google 的 论文 实现 了 MapReduce 这 个 编程 框架 ， 并 将 源 代码 完全 页 
献 了 出 来 。 本 章 就 是 要 向 大 家 介绍 MapReduce 这 个 流行 的 编程 框架 。 
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为 什么 要 用 MapReduce 





MapReduce 的 流行 是 有 理由 的 。 它 非常 简单 、 易 于 实现 且 扩 展 性 强 。 大 家 可 以 通过 它 轻 











易 地 编写 出 同时 在 多 台 主 机 上 运行 的 程序 ， 也 可 以 使 用 Ruby、Python、PHP 和 C++ 等 非 Java 




















类 语言 编写 Map 或 Reduce 程 序 ， 还 可 以 在 任何 安装 Hadoop 的 集群 中 运行 同样 的 程序 ， 不 论 这 
个 集群 有 多 少 台 主机 。MapReduce 适 合 处 理 海量 数据 ， 因 为 它 会 被 多 台 主 机 同时 处 理 ， 这 样 
通常 会 有 较 快 的 速度 。 

下 面 来 看 一 个 例子 。 








引文 分 析 是 评价 论文 好 坏 的 一 个 非常 





要 的 方面 ， 本 例 只 对 其 中 最 简单 的 一 部 分 ， 即 论 























文 的 被 引用 次 数 进行 了 统计 。 假 设 有 很 多 篇 论文 〈 百 万 级 ) ， 且 每 篇 论文 的 引文 形式 如 下 所 


不 : 


= | 
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在 单机 运行 时 ， 想 要 完成 这 个 统计 任务 ， 需 要 先 切 分 出 所 有 论文 的 名 字 存 入 一 个 Hash 表 
bh， 然后 遍历 所 有 论文 ， 查 看 引文 信息 ， 一 一 计数 。 因 为 文章 数量 很 多 ， 需 要 进行 很 多 次 内 
外 存 交 换 ， 这 无 疑 会 延长 程序 的 执行 时 间 。 但 在 MapReduce 中 ， 这 是 一 个 WordCount 就 能 解 
决 的 问题 。 
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3.2 ”MapReduce 计 算 模 型 

















要 了 解 MapReduce， 首 先 需要 了 解 MapReduce 的 载体 是 什么 。 在 Hadoop 中 ， 用 于 执行 
MapReduce 任 务 的 机 器 有 两 个 角色 : 一 个 是 JobTracker， 另 一 个 是 TaskKTracker。JobTracler 是 
于 管理 和 调度 工作 的 ，TaskTracker 是 用 于 执行 工作 的 。 一 个 Hadoop 集 群 中 只 有 一 台 
























































JobTracker。 


3.2.1 MapReduce Job 








在 Hadoop 中 ， 每 个 MapReduce 任 务 都 被 初始 化 为 一 个 Job。 每 个 Job 又 可 以 分 为 两 个 阶 
段 ， Map 阶 段 和 Reduce 阶 段 。 这 两 个 阶段 分 别 用 两 个 函数 来 表示 ， 即 Map 函 数 和 Reduce 函 
数 。Map 函 数 接收 一 个 <key, value> 形 式 的 输入 ， 然 后 产生 同样 为 <ley, value> 形 式 的 中 间 
输出 ，Hadoop 会 负责 将 所 有 具有 相同 中 间 ley 值 的 value 集 合 到 一 起 传递 给 Reduce 函 数 ， 
Reduce 函 数 接收 一 个 如 二 key， (list of values) > 形式 的 输入 ， 然 后 对 这 个 value 集 合 进 行 处 
理 并 输出 结果 ，Reduce 的 输出 也 是 key, value >JÉRH 
































为 了 方便 理解 ， 分 别 将 三 个 <key, value> 对 标记 为 <kl，v1>、<R，v2>>、<1，v3 
>， 那 么 上 面 所 述 的 过 程 就 可 以 用 图 3-1 来 表示 了 。 


图 3-1 MapbReduce 程 序数 据 变化 的 基本 模型 























3.2.2 ”Hadoop 中 的 Hello World 程 序 


上 面 所 述 的 过 程 是 MapReduce 的 核心 ， 所 有 的 MapReduce 程 序 都 具有 图 3-1 所 示 的 结构 。 
下 面 我 再 举 一 个 例子 详 述 MapReduce 的 执行 过 程 。 








大 家 初次 接触 编程 时 学 习 的 不 论 是 哪 种 语言 ， 看 到 的 第 一 个 示例 程序 可 能 都 是 “Hello 
World”。 在 Hadoop 中 也 有 一 个 类 似 于 Hello World 的 程序 。 这 就 是 WordCount。 本 节 会 结合 这 
个 程序 具体 讲解 与 MapReduce 程 序 有 关 的 所 有 类 。 这 个 程序 的 内 容 如 下 : 





=] 

package cn.edu.ruc.cloudcomputing.book.chapter03; 

import java.io.IOException; 

import java.util.*; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapred.*; 

import org.apache.hadoop.util.*; 

public class WordCount{ 

public static class Map extends MapReduceBase implements 
Mapper<LongWritable, 

Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1); 

private Text word=new Text () ; 

public void map (LongWritable key, Text value, 
OutputCollector<Text, 

IntWritable>output, Reporter reporter) throws IOException{ 

String line=value.toString O ; 

StringTokenizer tokenizer=new StringTokenizer (line) ; 

while (tokenizer.hasMoreTokens () ) { 

word.set (tokenizer.nextToken () ); 

output.collect (word, one); 

} 

} 

} 

public static class Reduce extends MapReduceBase implements 
Reducer<Text, 

IntWritable, Text, IntWritable>{ 

public void reduce (Text key, Iterator<IntWritable>values, 
OutputCollector<Text, 

IntWritable>output, Reporter reporter) throws IOException{ 

int sum=0; 


while (values.hasNext () ) { 


sumt+= 


} 


values.next O .get O ; 


output.collect (key, new IntWritable (sum) ) ; 


} 
} 


public static void main (String[]args) throws Exception{ 
JobConf conf=new JobConf (WordCount.class) ; 


conf. 
conf. 
conf. 
conf. 
conf. 
conf. 
conf. 


setJobName ("wordcount"™) ; 
setOutputKeyClass (Text.class) ; 
setOutputValueClass (IntWritable.class) ; 
setMapperClass (Map.class) ; 
setReducerClass (Reduce.class) ; 
setInputFormat (TextInputFormat.class) ; 
setOutputFormat (TextOutputFormat.class) ; 


FileInputFormat.setInputPaths (conf, new Path (args[0]) ) ; 
FileOutputFormat.setOutputPath (conf, new Path (args[1]) ); 
JobClient.runJob (conf) ; 


} 
} 


| 
同时 ， 为 了 叙述 方便 ， 设 定 两 个 输入 文件 ， 如 下 : 


ee ， 
echo"Hello World Bye World">file0l 
echo"Hello Hadoop Goodbye Hadoop">file02 
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看 到 这 个 程序 ， 相 信 很 多 读者 会 对 众多 的 预定 义 类 感到 很 迷惑 。 其 实 这 些 类 非常 简单 明 
了 。 首 先 ，WordCount 程 序 的 代码 虽 多 ， 但 是 执行 过 程 却 很 简单 ， 在 本 例 中 ， 它 首先 将 输入 
文件 读 进 来 ， 然 后 交 由 Map 程 序 处 理 ，Map 程 序 将 输入 读 入 后 切 出 其 中 的 单词 ， 并 标记 它 的 
数目 为 1， 形 成 <word，1>> 的 形式 ， 然 后 交 由 Reduce 处 理 ，Reduce 将 相同 key 值 〈 也 就 是 
word) 的 value 值 收集 起 来 ， 形 成 <word, list of 1> 的 形式 ， 之 后 将 这 些 1 值 加 起 来 ， 即 为 单 


词 的 个 数 ， 最 后 将 这 个 二 key, value> 对 以 TextOutputFormat 的 形式 输出 到 HDFS 中 。 















































针对 这 个 数据 流动 过 程 ， 我 挑 出 了 如 下 几 句 代码 来 表述 它 的 执行 过 程 : 


OO 人 ”i 
JobConf conf=new JobConf (MyMapre.class) ; 


conf. 
conf. 


setJobName ("wordcount") ; 
setInputFormat (TextInputFormat.class) ; 


conf.setOutputFormat (TextOutputFormat.class) ; 
conf.setMapperClass (Map.class) ; 

conf.setReducerClass (Reduce.class) ; 
FileInputFormat.setInputPaths (conf, new Path (args[0]) ); 
FileOutputFormat.setOutputPath (conf, new Path (args[1]) ); 


一 


首先 讲解 一 下 Job 的 初始 化 过 程 。Main 函 数 调 



































Jobconf 类 来 对 MapReduce Job 进 行 初始 


化 ， 然 后 调用 seUobName O 方法 命名 这 个 Job。 对 Job 进 行 合理 的 命名 有 助 于 更 快 地 找到 
Job， 以 便 在 JobTracker 和 TaskTracker 的 页 面 中 对 其 进行 4 





Inputformat () 、OutputFormat © 、Map © 、Reduce () 这 4 














1.InputFormat () 和 InputSplit 





InputSplit 是 Hadoop 中 
身 ， 而 是 一 个 分 片 长 度 和 


上 ，InputFormat © 则 调 




















来 把 输入 数据 传送 给 每 个 单独 的 Map， 
-个 记录 数据 位 置 的 数组 。 生 成 InputSpli 
Inputformat () 来 设置 。 当 




















监视 。 接 着 就 会 调用 setmputPath © 
AllsetOutputPath O 设置 输入 输出 路 径 。 下 面 会 结合 WordCount 程 序 









点 讲解 
中 方法 。 


nputSplit 存 储 的 并 非 数 据 本 
t 的 方法 可 以 通过 





数据 传送 给 Map 时 ，Map 会 将 输入 分 片 传送 到 InputFormat O 

















getRecordReader () 方法 生成 RecordReader, RecordReader 再 通 


过 creatKey © 、creatValue () 方法 创建 可 供 Map 处 理 的 <key, value> 对 ， 即 <k，v1>。 
简 而 言 之 ，InputFormat() 方法 是 用 来 生成 可 供 Map 处 理 的 <key, value >XH o 


Hadoop 预 定义 了 多 种 方法 将 不 




















可 





对 ， 它 们 都 继承 自 InputFormat， 分 别 是 : 


Bailey BorweinPlouffe. BbpInputFormat 


Com posableInputFormat 


Com positeInputFormat 


DBInputFormat 


DistSum. Machine.AbstractInputFormat 


同类 型 的 输入 数据 转化 为 Map 能 够 处 理 的 二 key, value > 


FileInputFormat 














其 中 ，FileInputFormat 又 有 多 个 子 类 ， 分 别 为 : 





CombineFileInputFormat 


Key ValueTextInputFormat 


NLineInputFormat 


SequenceFileInputFormat 


TeralnputFormat 


TextInputFormat 

















其 中 ，TextInputFormat 是 Hadoop 默 认 的 输入 方法 ， 在 TextInputFormat 中 ， 每 个 文件 (或 
Bay) 都 会 单独 作为 Map 的 输入 ， 而 这 是 继承 自 FileInputFormat 的 。 之 后 ， 每 行 数据 都 
会 生成 一 条 记录 ， 每 条 记录 则 表示 成 <key, value >H: 

















Tk 








key 值 是 每 个 数据 的 记录 在 数据 分 片 中 的 字 节 偏 移 量 ， 数 据 类 型 是 LongW ritable; 


value 值 是 每 行 的 内 容 ， 数 据 类 型 是 Text。 


H 


也 就 是 说 ， 输 入 数据 会 以 如 下 的 形式 被 传 入 Map 中 : 





一 
file01: 
0 hello world bye world 
filed2 
0 hello hadoop bye hadoop 


一 








[>+] 








为 file01 和 file02 都 会 被 单独 输入 到 一 个 Map 中 ， 





tt 
可 








此 它们 的 key 值 都 是 0 








2.OutputFormat () 








对 于 每 一 种 输入 格式 都 有 一 种 输出 格式 与 其 对 应 。 同 样 ， 默 认 的 输出 格式 是 
TextOutputFormat， 这 种 输出 方式 与 输入 类 似 ， 会 将 每 条 记录 以 一 行 的 形式 存 入 文本 文件 。 
不 过 ， 它 的 键 和 值 可 以 是 任意 形式 的 ， 因 为 程序 内 部 会 调用 toString() 方法 将 键 和 值 转换 为 
String 类 型 再 输出 。 最 后 的 输出 形式 如 下 所 示 : 






































一 
Bye 2 
Hadoop 2 
Hello 2 
World 2 
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3.Map () 和 Reduce () 


Map () 方法 和 Reduce O 方法 是 本 章 的 








， 从 前 面 的 内 容 知 道 ，Map〈) 函数 接收 
经 过 InputFormat 处 理 所 产 生 的 和，v1 之 ， 然 后 输出 二 加 ，v2 之。WordCount 的 Map〈) 函数 
如 下 : 





= 

public class MyMapre{ 

public static class Map extends MapReduceBase implements 
Mapper<LongWritable, 

Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1); 

private Text word=new Text ©; 

public void map (LongWritable key, Text value, 

OutputCollector<Text, IntWritable>output, Reporter 
reporter) throws IOException{ 

String line=value.toString ©; 

StringTokenizer tokenizer=new StringTokenizer (line) ; 

while (tokenizer.hasMoreTokens () ) { 

word.set (tokenizer.nextToken () ) ; 

output.collect (word, one) ; 

} 

} 

} 


E | 


Map O 函数 继承 自 MapReduceBase， 并 且 它 实现 了 Mapper 接 口 ， 此 接口 是 一 个 范 型 类 
型 ， 它 有 4 种 形式 的 参数 ， 分 别 用 来 指定 Map〈) 的 输入 key 值 类 型 、 输 入 value 值 类 型 、 输 出 
































key 值 类 型 和 输出 value 值 类 型 。 在 本 例 中 ， 因 为 使 用 的 是 TextInputFormat， 它 的 输出 key 值 是 
LongWritable 类 型 ， 输 出 value 值 是 Text 类 型 ， 所 以 Map() 的 输入 类 型 即 为 <LongW ritable， 
Text> 。 如 前 面 的 内 容 所 述 ， 在 本 例 中 需要 输出 <word，1> 这 样 的 形式 ， 因 此 输出 的 Iey 值 
类 型 是 Text， 输 出 的 value 值 类 型 是 IntWritable 。 


























实现 此 接口 类 还 需要 实现 Map O Tik, Map O 方法 会 负责 具体 对 输入 进行 操作 ， 在 
AM, Map O 方法 对 输入 的 行 以 空格 为 单位 进行 切 分 ， 然 后 使 用 OutputCollect 收 集 输出 
ii<word, 1>, B<k2, v2>. 























下 面 来 看 Reduce O 函数 : 


一， 

public static class Reduce extends MapReduceBase implements 
Reducer<Text, 

IntWritable, Text, IntWritable>{ 

public void reduce (Text key, Iterator<IntWritable>values, 

OutputCollector<Text, IntWritable>output, Reporter 
reporter) throws IOException{ 

int sum=0; 

while (values.hasNext () ) { 

sumt=values.next O .get O; 

} 

output.collect (key, new IntWritable (sum) ) ; 

} 

} 


二 一 


与 Map() 类 似 ，Reduce() 函数 也 继承 自 MapReduceBase， 需 要 实现 Reducer 接 口 。 
Reduce () 函数 以 Map〈) 的 输出 作为 输入 ， 因 此 Reduce O 的 输入 类 型 是 Text, 
IneWritable 之 。 而 Reduce〈) 的 输出 是 单词 和 它 的 数目 ， 因 此 ， 它 的 输出 类 型 是 二 Text 
IntWritable>. Reduce O 函数 也 要 实现 Reduce O 方法 ， 在 此 方法 中 ，Reduce O 函数 将 
输入 的 key 值 作为 输出 的 key 值 ， 然 后 将 获得 的 多 个 value 值 加 起 来 ， 作 为 输出 的 value 值 。 





























4. 运 行 MapReduce 程 序 


读者 可 以 在 Eclipse 里 运行 MapReduce 程 序 ， 也 可 以 在 命令 行 中 运行 MapReduce 程 序 ， 但 














a 


是 在 实际 应 用 中 ， 还 是 推荐 到 命令 行 中 运行 程序 。 按 照 第 2 章 介绍 的 步 又， 首先 安装 
Hadoop， 然 后 输入 编译 打包 生成 的 JAR 程 序 ， 如 下 所 示 〔 以 Hadoop-0.20.2 为 例 ， 安 装 路 径 是 
一 /hadoop) : 




















一 
mkdir Firstdar 
javac-classpath~/hadoop/hadoop-0.20.2-core.jar-d FirstJar 
WordCount.java 
jar-cvf wordcount.jar-C FirstJar/. 


一 


首先 建立 FirstJar， 然 后 编译 文件 生成 .class， 存 放 到 文件 夹 FirstJar 中 ， 并 将 FirstJar 中 的 文 
件 打 包 生 成 wordcount.jar 文 件 。 








接着 上 传输 入 文件 〈 输 入 文件 是 file01，file02， 存 放 在 一 /input) : 


机 
~/hadoop/bin/hadoop dfs-mkdir input 
~/hadoop/bin/hadoop dfs-put~/input/fileO*input 


-m 


tt 





在 此 上 传 过 程 中 ， 先 建立 文件 夹 iInput， 然 后 上 传 文件 file01、file02 到 input 中 。 





最 后 运行 生成 的 JAR 文 件 ， 为 了 叙述 方便 ， 先 将 生成 的 JAR 文 件 放 入 Hadoop 的 安装 文件 
XP (HADOOP_HOME) ， 然 后 运行 如 下 命令 。 











| 
~/hadoop/bin/hadoop jar wordcount.jar WordCount input output 
11/01/21 20: 02: 38 WARN mapred.JobClient: Use 
GenericOptionsParser for parsing the 
arguments.Applications should implement Tool for the same. 
11/01/21 20: 02: 38 INFO mapred.FileInputFormat: Total input 
paths to process: 2 
11/01/21 20: 02: 38 INFO mapred.JobClient: Running job: 
job_201101111819 0002 
11/01/21 20: 02: 39 INFO mapred.JobClient: map O%reduce 0% 
11/01/21 20: 02: 49 INFO mapred.JobClient: map 100%reduce 0% 
11/01/21 20: 03: 01 INFO mapred.JobClient: map 100%reduce 100% 
11/01/21 20: 03: 03 INFO mapred.JobClient: Job complete: 
job_201101111819 0002 
11/01/21 20: 03: 03 INFO mapred.JobClient: Counters: 18 
11/01/21 20: 03: 03 INFO mapred.JobClient: Job Counters 


11/01/21 20: 03: 03 INFO mapred.JobClient: Launched reduce 
tasks=1 

11/01/21 20: 03: 03 INFO mapred.JobClient: Launched map 
tasks=2 

11/01/21 20: 03: 03 INFO mapred.JobClient: Data-local map 
tasks=2 

11/01/21 20: 03: 03 INFO mapred.JobClient: FileSystemCounters 

11/01/21 20: 03: 03 INFO mapred.JobClient: FILE BYTES READ=100 

11/01/21 20: 03: 03 INFO mapred.JobClient: HDFS BYTES READ=46 

11/01/21 20: 03: 03 INFO mapred.JobClient: 
FILE_BYTES_WRITTEN=270 

11/01/21 20: 03: 03 INFO mapred.JobClient: 
HDFS_BYTES_WRITTEN=31 

11/01/21 20: 03: 03 INFO mapred.JobClient: Map-Reduce 
Framework 

11/01/21 20: 03: 04 INFO mapred.JobClient: Reduce input 
groups=4 

11/01/21 20: 03: 04 INFO mapred.JobClient: Combine output 
records=0 

11/01/21 20: 03: 04 INFO mapred.JobClient: Map input records=2 

11/01/21 20: 03: 04 INFO mapred.JobClient: Reduce shuffle 
bytes=106 

11/01/21 20: 03: 04 INFO mapred.JobClient: Reduce output 
records=4 

11/01/21 20: 03: 04 INFO mapred.JobClient: Spilled Records=16 

11/01/21 20: 03: 04 INFO mapred.JobClient: Map output bytes=78 

11/01/21 20: 03: 04 INFO mapred.JobClient: Map input bytes=46 

11/01/21 20: 03: 04 INFO mapred.JobClient: Combine input 
records=0 

11/01/21 20: 03: 04 INFO mapred.JobClient: Map output 
records=8 

11/01/21 20: 03: 04 INFO mapred.JobClient: Reduce input 
records=8 


| 
Hadoop 命 令 〈 注 意 不 是 Hadoop 本 身 ) 会 启动 一 个 JVM 来 运行 这 个 MapReduce 程 序 ， 并 
自动 获取 Hadoop 的 配置 ， 同 时 把 类 的 路 径 〈 及 其 依赖 关系 ) 加 入 到 Hadoop 的 库 中 。 以 上 就 
是 Hadoop Job 的 运行 记录 ， 从 这 里 面 可 以 看 到 ， 这 个 Job 被 赋予 了 一 个 ID 号 : 
job_201101111819 0002， 而 且 得 知 输入 文件 有 两 个 〈Total input paths to process: 2) ， 同 时 
还 可 以 了 解 Map 的 输入 输出 记录 (record 数 及 字 节 数 ) ， 以 及 Reduce 的 输入 输出 记录 。 比 如 
说 ， 在 本 例 中 ，Map 的 task 数 量 是 2 个 ，Reduce 的 Task 数 量 是 一 个 ， Map 的 输入 record 数 是 2 


个 ， 输 出 record 数 是 8 个 等 。 


























可 以 通过 命令 查看 输出 文件 输出 文件 为 : 


| | 


bye 2 

hadoop 2 
hello 2 
world 2 


| | 


5. 新 的 API 


从 0.20.2 版 本 开始 ，Hadoop 提 供 了 一 个 新 的 API。 新 的 API 是 在 





org.apache.hadoop.mapreduce 中 的 ， 旧 版 的 API 则 在 org.apache.hadoop.mapred 中 。 新 的 API 








不 


























容 旧 的 API, WordCount 程 序 用 新 的 API 重 写 如 下 : 





= = = = 一 


package cn.ruc.edu.cloudcomputing.book.chaptero3; 

import java.io.IOException; 

import java.util.*; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.input.*; 

import org.apache.hadoop.mapreduce.lib.output.*; 

import org.apache.hadoop.util.*; 

public class WordCount extends Configured implements Tool{ 
public static class Map extends Mapper<LongWritable, Text, 


Text, IntWritable>{ 


private final static IntWritable one=new IntWritable (1); 
private Text word=new Text ©; 
public void map (LongWritable key, Text value, Context 


context) 


throws IOException, InterruptedException{ 

String line=value.toString O ; 

StringTokenizer tokenizer=new StringTokenizer (line) ; 
while (tokenizer.hasMoreTokens () ) { 

word.set (tokenizer.nextToken () ); 

context.write (word, one) ; 

} 

} 

} 

public static class Reduce extends Reducer<Text, 


IntWritable, Text, 


IntWritable>{ 
public void reduce (Text key, Iterable<IntWritable>values, 


Context context) 


数 也 
易 扩 


throws IOException, InterruptedException{ 

int sum=0; 

for (IntWritable val: values) { 

sum+t=val.get O ; 

} 

context.write (key, new IntWritable (sum) ) ; 

} 

} 

public int run (String[]args) throws Exception{ 

Job job=new Job (getConf O) ) ; 

job.setJarByClass (WordCount.class) ; 

job.setJobName ("wordcount") ; 

job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
job.setMapperClass (Map.class) ; 

job.setReducerClass (Reduce.class) ; 
job.setInputFormatClass (TextInputFormat.class) ; 
job.setOutputFormatClass (TextOutputFormat.class) ; 
FileInputFormat.setInputPaths (job, new Path (args[0]) ); 
FileOutputFormat.setOutputPath (job, new Path (args[1]) ); 
boolean success=job.waitForCompletion (true) ; 

return success?0: 1; 

} 

public static void main (String[]args) throws Exception{ 
int ret=ToolRunner.run (new WordCount (), args) ; 
System.exit (ret) ; 

} 

} 


从 这 个 程序 可 以 看 到 新 旧 API 的 几 个 区 别 : 











在 新 的 API 中 ，Mapper 与 Reducer 已 经 不 是 接口 而 是 抽象 类 。 而 且 Map 函 数 与 Reduce 函 
已 经 不 再 实现 Mapper 和 Reducer 接 口 ， 而 是 继承 Mapper 和 Reducer 抽 象 类 。 这 样 做 更 容 


展 ， 因 为 添加 方法 到 抽象 类 中 更 容易 。 
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新 的 API 中 更 广泛 地 使 用 了 context 对 象 ， 并 使 用 MapContext 进 行 MapReduce 间 的 通信 ， 




















MapContext 同 时 充当 OutputCollector 和 Reporter 的 角色 。 














Job 的 配置 统一 由 Configurartion 来 完成 ， 而 不 必 额 外 地 使 
置 。 








Job 类 来 负责 Job 的 控制 ， 而 不 是 JobClient JobClient 在 新 
别 ， 都 可 以 在 以 上 的 程序 中 看 出 。 




















的 APIH 





P 己 经 被 删除 。 这 些 


JobConf 对 守护 进程 进行 配 
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3.2.3 MapReduce 的 数据 流 和 控制 流 


前 面 已 经 提 到 了 MapReduce 的 数据 流 和 控制 流 的 关系 ， 本 节 将 结合 WordCount 实 例 具体 
解释 它们 的 含义 。 图 3-2 是 上 例 中 WordCount 程 序 的 执行 流程 。 
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< 数据 流 — 榨 制 流 
图 3-2 MapReduce 工 作 的 简易 图 


由 前 面 的 内 容 知 道 ， 负 责 控 制 及 调度 MapReduce 的 Job 的 是 JobTracker， 负 责 运行 
MapReduce 的 Job 的 是 TaskTracker。 当 然 ，MapReduce 在 运行 时 是 分 成 Map Task 和 Reduce Task 
来 处 理 的 ， 而 不 是 完整 的 Job。 简 单 的 控制 流 大 概 是 这 样 的 ，JobTracker 调 度 任务 给 
TaskTracker, TaskTracker 执 行 任务 时 ， 会 返回 进度 报告 。JobTracker 则 会 记录 进度 的 进行 状 
况 ， 如 果菜 个 TaskTracker 上 的 任务 执行 失败 ， 那 么 JobTracker 会 把 这 个 任务 分 配给 另 一 台 
TaskTracker， 直 到 任务 执行 完成 。 

















这 里 更 详细 地 解释 一 下 数据 流 。 上 例 中 有 两 个 Map 任 务 及 一 个 Reduce 任 务 。 数 据 首先 按 





照 TextmputFormat 形 式 被 处 理 成 两 个 mputSplit， 然 后 输入 到 两 个 Mapj 








h，Map 程 序 会 读 取 


InputSplit 指 定位 置 的 数据 ， 然 后 按照 设 定 的 方式 处 理 该 数据 ， 最 后 写 入 到 本 地 磁盘 中 。 注 
意 ， 这 里 并 不 是 写 到 HDFS 上 ， 这 应 该 很 好 理解 ， 因 为 Map 的 输出 在 Job 完 成 后 即 可 删除 了 ， 


























因此 不 需要 存储 到 HDFS 上 ， 虽 然 存 储 到 HDFS 上 会 更 安全 ， 但 是 因为 























网 络 传输 会 降低 








MapReduce 任 务 的 执行 效率 ， 因 此 Map 的 输出 文件 是 写 在 本 地 磁盘 上 
来 得 及 将 数据 传送 给 Reduce 时 就 骨 演 了 程序 出 错 或 机 器 崩溃 ) ， 那 
选 一 台 机 器 重新 执行 这 个 Task 就 可 以 了 。 











入。 如果 Map 程 序 在 没 
么 JobTracker 只 需要 另 


Reduce 会 读 取 Map 的 输出 数据 ， 合 并 value， 然 后 将 它们 输出 到 HDFS 上 。Reduce 的 输出 
会 占用 很 多 的 网 络 带宽 ， 不 过 这 与 上 传 数据 一 样 是 不 可 避免 的 。 如 果 大 家 还 是 不 能 很 好 地 理 





























解数 据 流 的 话 ， 下 面 有 一 个 更 具体 的 图 (WordCount 执 行 时 的 数据 流 ) 
















file01:hello world bye world 


file02:hello hadoup bye hadaop 





0 hello world bye ward 





0 hello hadcop bye hadoop 








图 3-3 WordCount 数 据 流程 图 














， 如 图 3-3 所 示 。 





相信 看 到 图 3-3， 大 家 就 会 对 MapReduce 的 执行 过 程 有 更 深刻 的 了 解 了 。 





除 此 之 外 ， 还 有 两 种 情况 需要 注意 : 


1) MapReduce 在 执行 过 程 中 往往 不 止 一 个 Reduce Task Reduce Task 的 数量 是 可 以 程序 指 
定 的 。 当 存在 多 个 Reduce Task 时 ， 每 个 Reduce 会 搜集 - 


一 个 或 多 个 key 值 。 需 要 注意 的 是 ， 当 
出 现 多 个 Reduce Task 时 ， 每 个 Reduce Task 都 会 生成 一 个 输出 文件 。 











D 另外 ， 没 有 Reduce 任 务 的 时 候 ， 系 统 会 直接 将 Map 的 输出 结果 作为 最 终结 果 ， 同 时 
Map Task 的 数量 可 以 看 做 是 Reduce Task 的 数量 ， 即 有 多 少 个 Map Task 就 有 多 少 个 输出 文件 。 


3.3 ”MapReduce 任 务 的 优化 


相信 每 个 程序 员 在 编程 时 都 会 问 自己 两 个 问题 “我 如 何 完 成 这 个 任务 ?”， 以 及 “怎么 能 让 


程序 运行 得 更 快 "。 同 样 


i 


题 。 


，MapReduce 计 算 模型 的 多 次 优化 也 是 为 了 更 好 地 解答 这 两 个 问 


MapReduce 计 算 模型 的 优化 涉及 了 方方面面 的 内 容 ， 但 是 主要 集中 在 两 个 方面 :一 是 计 
算 性 能 方面 的 优化 ;二 是 IO 操作 方面 的 优化 。 这 其 中 ， 又 包含 六 个 方面 的 内 容 。 


1. 任 务 调度 











任务 调度 是 Hadoop 中 非常 重要 的 一 环 ， 这 个 优化 又 涉及 两 个 方面 的 内 容 。 计 算 方 面 : 
Hadoop 总 会 优先 将 任务 分 配给 空闲 的 机 器 ， 使 所 有 的 任务 能 公平 地 分 享 系统 资源 。LO 方 


面 : Hadoop 会 尽量 将 Ma 


2. 数 据 预 处 理 与 Inpu 








p 任 务 分 配给 InputSplit 所 在 的 机 器 ， 以 减少 网 络 IO 的 消耗 。 


tSplit 的 大 小 


MapReduce 任 务 擅长 处 理 少量 的 大 数据 ， 而 在 处 理 大 量 的 小 数据 时 ，MapReduce 的 性 能 
就 会 逊色 很 多 。 因 此 在 提交 MapReduce 任 务 前 可 以 先 对 数据 进行 一 次 预 处 理 ， 将 数据 合并 以 
提高 MapReduce 任 务 的 执行 效率 ， 这 个 办 法 往往 很 有 效 。 如 果 这 还 不 行 ， 可 以 参考 Map 任 务 
的 运行 时 间 ， 当 一 个 Map 任 务 只 需要 运行 几 秒 就 可 以 结束 时 ， 就 需要 考虑 是 否 应 该 给 它 分 配 








更 多 的 数据 。 通 常 而 言 ， 


一 个 Map 任 务 的 运行 时 间 在 一 分 钟 左右 比较 合适 ， 可 以 通过 设置 


Map 的 输入 数据 大 小 来 调节 Map 的 运行 时 间 。 在 FileInputFormat 中 《除了 
CombineFileInputFormat) ，Hadoop 会 在 处 理 每 个 Block 后 将 其 作为 一 个 InputSplit， 因 此 合理 


地 设置 block 块 大 小 是 很 











下 要 的 调节 方式 。 除 此 之 外 ， 也 可 以 通过 合理 地 设置 Map 任 务 的 数量 


来 调节 Map 任 务 的 数据 输入 。 


3.Map 和 Reduce 任 务 的 数量 


合理 地 设置 Map 任 务 与 Reduce 任 务 的 数量 对 提高 MapReduce 任 务 的 效率 是 非常 重要 的 。 








默认 的 设置 往往 不 能 很 好 地 体现 出 MapReduce 任 务 的 需求 ， 不 过 ， 设 置 它们 的 数量 也 要 有 一 


首先 要 定义 两 个 概念 一 Map/Reduce 任 务 槽 。Map/Reduce 任 


E 务 槽 就 是 这 个 集群 能 够 同时 





运行 的 Map/Reduce 任 务 的 最 大 数量 。 比 如 ， 在 一 个 具有 1200 台 机 器 的 集群 中 ， 设 置 每 台 机 器 
最 多 可 以 同时 运行 10 个 Map 任 务 ，5 个 Reduce 任 务 。 那 么 这 个 集群 的 Map 任 务 槽 就 是 12000， 


Reduce 任 务 槽 是 6000。 任 务 槽 可 以 帮助 对 任务 调度 进行 设置 。 


设置 MapReduce 任 务 的 Map 数 量 主要 参考 的 是 Map 的 运行 
就 只 需要 参考 任务 模 的 设置 即 可 。 一 般 来 说 ，Reduce 任 务 的 数 
倍 或 是 1.75 倍 ， 这 是 基于 不 同 的 考虑 来 决定 的 。 当 Reduce 任 务 








上 对 间 ， 设 置 Reduce 任 务 的 数量 
量 应 该 是 Reduce 任 务 槽 的 0.95 
的 数量 是 任务 槽 的 0.95 倍 时 ， 


如 果 一 个 Reduce 任 务 失败 ，Hadoop 可 以 很 快 地 找到 一 台 空 闲 的 机 器 重新 执行 这 个 任务 。 当 


Reduce 任 务 的 数量 是 任务 槽 的 1.75 倍 时 ， 执 行 速度 快 的 机 器 可 
此 可 以 使 负载 更 加 均衡 ， 以 提高 任务 的 处 理 速度 。 


4.Combine 函 数 

















以 获得 更 多 的 Reduce 任 务 ， 因 











Combine 函 数 是 用 于 本 地 合并 数据 的 函数 。 在 有 些 情况 下 ，Map 函 数 产生 的 中 间 数 据 会 


有 很 多 是 重复 的 ， 比 如 在 一 个 简单 的 WordCount 程 序 中 
每 个 Map 任 务 可 能 会 产生 成 二 上 万 个 <the，1> 记 录 ， 若 ; 


是 很 耗 时 上 
少 网 络 LIO 


RK. AH 


在 Ma 

















内 。 所 以 ，MapReduce 框 架 运行 
































pReduce 程 序 中 使 用 combine 很 简单 ， 只 需 在 程序 中 






































操作 的 消耗 。 此 时 就 可 以 利用 combine 函 数 先 计 
也 设计 combine 函 数 会 有 效 地 减少 














为 词 频 是 接近 与 一 个 zipf 分 布 的 ， 
将 这 些 记录 一 一 传送 给 Reduce 任 务 
户 写 的 combine 函 数 用 于 本 地 合并 ， 这 会 大 大 减 
算出 在 这 个 Block 中 单词 the 的 个 

网 络 传输 的 数据 量 ， 


























提高 MapReduce 的 效率 。 


添加 如 下 内 容 : 


一 


job.setCombinerClass (combine.class) ; 


5 


在 Wo 


rdCount 程 序 中 ， 可 以 指定 Reduce 类 为 combine 函 数 ， 具 体 如 下 : 





| | 


job.setCombinerClass (Reduce.class) ; 
一 


5. 压 缩 





编写 MapReduce 程 序 时 ， 可 以 选择 对 Map 的 输出 和 最 终 的 输出 结果 进行 压缩 (同时 可 以 
选择 压缩 方式 ) 。 在 一 些 情况 下 ，Map 的 中 间 输 出 可 能 会 很 大 ， 对 其 进行 压缩 可 以 有 效 地 减 
少 网 络 上 的 数据 传输 量 。 对 最 终结 果 的 压缩 虽然 会 减少 数据 写 HDFS 的 时 间 ， 但 是 也 会 对 读 
取 产 生 一 定 的 影响 ， 因 此 要 根据 实际 情况 来 选择 〈 第 7 章 中 提供 了 一 个 小 实验 来 验证 压缩 的 
效果 ) 。 
































6. 自 定义 comparator 





在 Hadoop 中 ， 可 以 自 定义 数据 类 型 以 实现 更 复杂 的 目的 ， 比 如 ， 当 读者 想 实现 kmeans 
算法 (一 个 基础 的 聚 类 算法 ) 时 可 以 定义 k 个 整数 的 集合 。 自 定义 Hadoop 数 据 类 型 时 ， 推 荐 
自 定义 comparator 来 实现 数据 的 三 进 制 比较 ， 这 样 可 以 省 去 数据 序列 化 和 反 序列 化 的 时 间 ， 
提高 程序 的 运行 效率 (具体 会 在 第 7 章 中 讲解 〉。 











3.4 Hadoop 流 














Hadoop 流 提供 了 一 个 API， 人 允许 用 户 使 用 任何 脚本 语言 号 Map 函 数 或 Reduce 函 数 。 
Hadoop 流 的 关键 是 ， 它 使 用 UNIX 标 准 流 作为 程序 与 Hadoop 之 间 的 接口 。 因 此 ， 任 何 程序 只 
要 可 以 从 标准 输入 流 中 读 取 数据 并 且 可 以 写 入 数据 到 标准 输出 流 ， 那 么 就 可 以 通过 Hadoop 流 
使 用 其 他 语言 编写 MapReduce 程 序 的 Map 函 数 或 Reduce 函 数 。 






























































举 个 最 简单 的 例子 〈 本 例 的 运行 环境 : Ubuntu, Hadoop-0.20.2) : 


eee 
bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar- 
input input-output 
output-mapper/bin/cat-reducer usr/bin/we 
一 


从 这 个 例子 中 可 以 看 到 ，Hadoop 流 引入 的 包 是 hadoop-0.20.2-streaming.jar， 并 且 有 具有 如 
下 命令 : 





es== = | 
-input 指 明 输 入 文件 路 径 
-output 指 明 输 出 文件 路 径 
-mapper 指 定 map 函 数 
-reducer 指 定 reduce 函 数 
一 一 一 


Hadoop 流 的 操作 还 有 其 他 参数 ， 后 面 会 一 一 列 出 。 
3.4.1 Hadoop 流 的 工作 原理 


先 来 看 Hadoop 流 的 工作 原理 。 在 上 例 中 ，Map 和 Reduce 都 是 Linux 内 的 可 执行 文件 ， 更 
重要 的 是 ， 它 们 接受 的 都 是 标准 输入 Cstdin) ， 输 出 的 都 是 标准 输出 〈stdout) 。 如 果 大 家 熟 
悉 Linux， 那 么 对 它们 一 定 不 会 陌生 。 执 行 上 一 节 中 的 示例 程序 的 过 程 如 下 所 示 。 























程序 的 输入 与 WordCount 程 序 是 一 样 的 ， 具 体 如 下 : 


uuu, | 
fileðl; 


hello world bye world 

file02 

hello hadoop bye hadoop 

输入 命令 : 

bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar- 
input input-output 

output-mapper/bin/cat-reducer/usr/bin/we 

显示 : 

packageJobJar: [/root/tmp/hadoop-unjar7103575849190765740/] 
[] /tmp/ 

streamjob2314757737747407133.jar tmpDir=null 

11/01/23 02: 07: 36 INFO mapred.FileInputFormat: Total input 
paths to process: 2 

11/01/23 02: 07: 37 INFO streaming.StreamJob: 
getLocalDirs (): [/root/tmp/mapred/local] 

11/01/23 02: 07: 37 INFO streaming.StreamJob: Running job: 
job_201101111819 0020 

11/01/23 02: 07: 37 INFO streaming.StreamJob: To kill this 
job, run: 

11/01/23 02: 07: 37 INFO 
streaming.StreamJob: /root/hadoop/bin/hadoop job-Dmapred. 

job.tracker=localhost: 9001-kill job_201101111819 0020 

11/01/23 02: 07: 37 INFO streaming.StreamJob: Tracking URL: 
http: //localhost: 50030/ 

jobdetails.jsp?jobid=job_201101111819 0020 

11/01/23 02: 07: 38 INFO streaming.StreamJob: map O0%reduce 0% 

11/01/23 02: 07: 47 INFO streaming.StreamJob: map 100%reduce 
0 


oe 


11/01/23 02: 07: 59 INFO streaming.StreamJob: map 100%reduce 
100% 

11/01/23 02: 08: 02 INFO streaming.StreamJob: Job complete: 
job_201101111819 0020 

11/01/23 02: 08: 02 INFO streaming.StreamJob: Output: output 

程序 的 输出 是 : 

2 8 46 
| 














wc 命 令 用 来 统计 文件 中 的 行 数 、 单 词 数 与 字 节 数 ， 可 以 看 到 ， 这 个 结果 是 正确 的 。 



































Hadoop 流 的 工作 原理 并 不 复杂 ， 其 中 Map 的 工作 原理 如 图 3-4 所 示 〈Reduce 与 其 相 
同 ) 。 








InputSplit | 


{executable | «| key] 


Map + y 
P “Lyaluc | 


>| stdin S} stdout | 一 X Map } 


图 3-4 Hadoop 流 的 Map 流 程 图 


当 一 个 可 执行 文件 作为 Mapper 时 ， 每 一 个 Map 任 务 会 以 一 个 独立 的 进程 启动 这 个 可 执行 
文件 ， 然 后 在 Map 任 务 运行 时 ， 会 把 输入 切 分 成 行 提供 给 可 执行 文件 ， 并 作为 它 的 标准 输入 
(stdin) 内 容 。 当 可 执行 文件 运行 出 结果 时 ，Map 从 标准 输出 〈stdout) 中 收集 数据 ， 并 将 其 
转化 为 ley, value> 对 ， 作 为 Map 的 输出 。 











Reduce 与 Map 相 同 ， 如 果 可 执行 文件 做 Reducer 时 ，Reduce 任 务 会 启动 这 个 可 执行 文 
件 ， 并 且 将 <key, value> 对 转化 为 行 作为 这 个 可 执行 文件 的 标准 输入 (stdin) 。 然 后 Reduce 
会 收集 这 个 可 执行 文件 的 标准 输出 〈stdout) 的 内 容 。 并 把 每 一 行 转化 为 <key, value> 对 ， 
作为 Reduce 的 输出 。 











Map 与 Reduce 将 输出 转化 为 <key, value> 对 的 默认 方法 是 : 将 每 行 的 第 一 个 tab 符 号 〈 制 
表 符 ) 之 前 的 内 容 作 为 key， 之 后 的 内 容 作 为 value 。 如 果 没 有 tab 符 号 ， 那 么 这 一 行 的 所 有 内 
容 会 作为 key ， 而 value 值 为 null。 当 然 这 是 可 以 更 改 的 。 



































值得 一 提 的 是 ， 可 以 使 用 Java 类 作为 Map， 而 用 一 个 可 执行 程序 作为 Reduce; 或 使 
Java 类 作为 Reduce， 而 用 可 执行 程序 作为 Map。 例 如 : 



































n C 
/bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar 
-input myInputDirs-output myOutputDir-mapper 
org.apache.hadoop.mapred.lib.IdentityMapper-reducer/bin/wc 

(g | 


3.4.2 ”Hadoop 流 的 命令 




















Hadoop 流 提供 自己 的 流 命令 选项 及 一 个 通用 的 命令 选项 ， 用 于 设置 Hadoop 流 任务 。 首 
先 介 绍 一 下 流 命 令 。 




















1.Hadoop 流 命令 选项 


Hadoop 流 命令 具体 内 容 如 表 3-1 所 示 。 


表 3-1 Hadoop 流 命令 
































Ss k ay it ike S$ & 可 选 / 必 选 
-input F -cmdenv DES 
-output 4 -inputreader wy 
-mapper 1 -verbose Dr 
-reducer Bi | -lazyOutput DES 
-file p | -numReduce tasks ay ik 
~inputformat -mapdebug 可 进 
-outputformat -reducedebug pr 
~partitioner Jio 可 选 
-combiner 























表 3-1 所 示 的 Hadoop 流 命令 中 ， 必 选 的 4 个 很 好 理解 ， 分 别 用 于 指定 输入 /输出 文件 的 位 置 
及 Map/Reduce 函 数 。 在 其 他 的 可 选 命令 中 ， 这 里 我 们 只 解释 常用 的 几 个 。 


























-file 

















-file 指 令 用 于 将 文件 加 入 到 Hadoop 的 Job 中 。 上 面 的 例子 中 ，cat 和 wc 都 是 Linux 系 统 中 的 
命令 ， 而 在 Hadoop 流 的 使 用 中 ， 往 往 需要 使 用 自己 写 的 文件 〈 作 为 Map 函 数 或 Reduce 函 
数 ) 。 一 般 而 言 ， 这 些 文件 是 Hadoop 集 群 中 的 机 器 上 没有 的 ， 这 时 就 需要 使 用 Hadoop 流 中 
的 -file 命 令 将 这 个 可 执行 文件 加 入 到 Hadoop 的 Job 中 。 
















































































-combiner 































































































这 个 命令 用 来 加 入 combiner 程 序 。 

-inputformat 和 -outputformat 

这 两 个 命令 用 来 设置 输入 输出 文件 的 处 理 方法 ， 这 两 个 命令 后 面 的 参数 必须 是 Java 类 。 
2.Hadoop 流 通用 的 命令 选项 

Hadoop 流 的 通用 命令 用 来 配置 Hadoop 流 的 Job。 需 要 注意 的 是 ， 如 果 使 用 这 部 分 配置 ， 











就 必须 将 其 置 于 流 命令 配置 之 前 ， 否 则 命令 会 失败 。 这 里 简要 列 出 命令 列表 〈 如 表 3-2 所 


示 ) ， 供 大 家 参考 。 





表 3-2 Hadoop 流 的 Job 设置 命令 























可 选 /7 必 选 
conf | 可 选 -files | DEN 
-D | 可 选 -libjars | 可 选 
-fs | 可 选 -archives | 可 选 














可 选 





3.4.3 ”两 个 例子 


从 上 面 的 内 容 可 以 知道 ，Hadoop 流 的 API 是 一 个 扩展 性 非常 强 的 框架 ， 它 与 程序 相连 的 
部 分 只 有 数据 ， 因 此 可 以 接受 任何 适用 于 UNIX 标 准 输入 /输出 的 脚本 语言 ， 比 如 Bash、 
PHP、Ruby 、Python 等 。 

















下 面 举 两 个 非常 简单 的 例子 来 进一步 说 明 它 的 特性 。 


1.Bash 





MapReduce 框 架 是 一 个 非常 适合 在 大 规模 的 非 结 构 化 数据 中 查找 数据 的 编程 模型 ，grep 
就 是 这 种 类 型 的 一 个 例子 。 


























在 Linux 中 ，grep 命 令 用 来 在 一 个 或 多 个 文件 中 查找 某 个 字符 模式 〈 这 个 字符 模式 可 以 代 
表 字 符 串 ， 多 用 正则 表达 式 表示 ) 。 





























下 面 尝试 在 如 下 的 数据 中 查找 带 有 Hadoop 字 符 串 的 行 ， 如 下 所 示 。 


输入 文件 为 : 


| 二 一 | 


file01: 

hello world bye world 
file02: 

hello hadoop bye hadoop 


JE 


reduce 文 件 为 : 


c=== = = = 一 = 

reduce.sh: 

grep hadoop 

输入 命令 为 : 

bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar- 
input input-output 

output-mapper/bin/cat-reducer~/Desktop/test/reducer.sh-file 
~/Desktop/test/ 

reducer.sh 


hello hadoop bye hadoop 
一 


显然 ， 这 个 结果 是 正确 的 。 





2.Python 














对 于 Python 来 说 ， 情 况 有 些 特殊 。 因 为 Python 是 可 以 编译 为 JAR 包 的 ， 如 果 将 程序 编译 
为 JAR 包 ， 那 么 就 可 以 采用 运行 JAR 包 的 方式 来 运行 了 。 






































不 过 ， 同 样 也 可 以 用 流 的 方式 运行 Python 程序 。 请 看 如 下 代码 : 


让 
Reduce.py 
#! /usr/bin/python 
import sys; 
def generateLongCountToken (id) : 
return"LongValueSum: "+id+"\t"+"1" 
def main (argv): 
line=sys.stdin.readline () ; 


try: 
while line: 
line=line[: -1]; 


fields=line.split ("\t") ; 

print generateLongCountToken (fields[0]) ; 

line=sys.stdin.readline O) ; 

except"end of file": 

return None 

if__name__=="__main__"; 

main (sys.argv) 
E 











使 用 如 下 命令 来 运行 : 


一， 
bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar- 
input input-output 
pyoutput-mapper reduce.py-reducer aggregate-file reduce.py 
eee 


























注意 其 中 的 aggregate 是 Hadoop 提 供 的 一 个 包 ， 它 提供 一 个 Reduce 函 数 和 一 个 combine 函 
数 。 这 个 函数 实现 一 些 简 单 的 类 似 求 和 、 取 最 大 值 最 小 值 等 的 功能 。 


3.5 Hadoop Pipes 




















Hadoop Pipes 提 供 了 一 个 在 Hadoop 上 运行 C++ 程序 的 方法 。 与 流 不 同 的 是 ， 流 使 用 的 是 
标准 输入 输出 作为 可 执行 程序 与 Hadoop 相 关 进 程 间 通 信 的 工具 ， 而 Pipes 使 用 的 是 Soclets。 
先 看 一 个 示例 程序 wordcount.cpp: 























[| 
#include"hadoop/Pipes.hh" 
#include"hadoop/TemplateFactory.hh" 
#include"hadoop/StringUtils.hh" 
const std: string WORDCOUNT="WORDCOUNT"; 
const std: string INPUT_WORDS="INPUT_ WORDS"; 
const std: string OUTPUT_WORDS="OUTPUT_WORDS"; 
class WordCountMap: public HadoopPipes: Mapper{ 
public: 

HadoopPipes: TaskContext: Counter*inputWords; 

WordCountMap (HadoopPipes: TaskContext&context) { 

inputWords=context.getCounter (WORDCOUNT, INPUT_WORDS) ; 

} 

void map (HadoopPipes: MapContext&context) { 

std: vector<std: string>words= 

HadoopUtils: splitString (context.getInputValue (), ""); 

for (unsigned int i=0; i<words.size () ; ++i) { 

context.emit (words[i], "1"); 

} 

context.incrementCounter (inputWords, words.size Oo); 

} 

}; 

class WordCountReduce: public HadoopPipes: Reducer{ 

public: 

HadoopPipes: TaskContext: Counter*outputWords; 

WordCountReduce (HadoopPipes: TaskContext&context) { 

outputWords=context.getCounter (WORDCOUNT, OUTPUT_WORDS) ; 

} 

void reduce (HadoopPipes: ReduceContext&context) { 

int sum=0; 

while (context.nextValue ( ) { 

sum+=HadoopUtils: toInt (context.getInputValue O ); 

} 

context.emit (context.getInputKey () , HadoopUtils: 
toString (sum) ) ; 

context.incrementCounter (outputWords, 1); 

} 

hs 


int main (int argc, char*argv[]) { 

return HadoopPipes: runTask (HadoopPipes: TemplateFactory< 
WordCountMap, 

WordCountReduce> () ); 

} 


een 
这 个 程序 连接 的 是 一 个 C++ 库 ， 结 构 类 似 于 Java 编 写 的 程序 。 如 新 版 API 一 样 ， 这 个 程 

序 使 用 context 方 法 读 入 和 收集 二 key, value 二 对 。 在 使 用 时 写 HadoopPipes 名 字 空 间 下 的 

Mapper 和 Reducer 函 数 ， 并 用 context.emit() 方法 输出 key, value 二 对 。main 函 数 是 应 用 程 































































































序 的 入 口 ， 它 调用 HadoopPipes: runTask 方 法 ， 这 个 方法 由 一 个 TemplateFactory 参数 来 创建 




















Map 和 Reduce 实 例 ， 也 可 以 重 载 factory 设 置 combiner () 、partitioner () 、record reader、 


Tecord writer。 
































楼 下 来 ， 编 译 这 个 程序 。 这 个 编译 命令 需要 用 到 g++， 读 者 可 以 使 用 apt 自 动 安装 这 个 程 
序 。g++ 的 命令 格式 如 下 所 示 : 


p 
apt-get install g++ 
| oee aeee OO oo | 








然后 建立 文件 Makerfile， 如 下 所 示 : 


| 
HADOOP_INSTALL=" 你 的 hadoop 安 装 文件 夹 " 
PLATFORM=Linux-i386-32〔 如 果 是 AMD 的 cPU， 请 使 用 Linux-am964-64) 
CC=g++ 
CPPFLAGS=-m32-I$ (HADOOP_INSTALL) /c++/$ (PLATFORM) /include 
wordcount: wordcount.cpp 
$ (CC) $ (CPPFLAGS) $<-Wall-L$ (HADOOP_INSTALL) /c++/$ 
(PLATFORM) /lib-lhadooppipes 本 
-lhadooputils-lpthread-g-02-0$@ 
注意 在 $ (cc) 前 有 一 个 <tab> 符 号 ， 这 个 分 隔 符 是 很 关键 的 。 
| TŘ 




















在 当前 目录 下 建立 一 个 WordCount 可 执行 文件 。 


接着 ， 上 传 可 执行 文件 到 HDFS 上 ， 这 是 为 了 TaskTracker 能 够 获得 这 个 可 执行 文件 。 这 
里 上 传 到 bin 文 件 夹 内 。 


| 
~/hadoop/bin/hadoop fs-mkdir bin 
~/hadoop/bin/hadoop dfs-put wordcount bin 


TT | 














然后 ， 就 可 以 运行 这 个 MapReduce 程 序 了 ， 可 以 采用 两 种 配置 方式 运行 这 个 程序 。 一 种 
方式 是 直接 在 命令 中 运行 指定 配置 ， 如 下 所 示 











ee 一 
~/hadoop/bin/hadoop pipes\ 
-D hadoop.pipes.java.recordreader=true\ 
-D hadoop.pipes.java.recordwriter=true\ 
-input input\ 
-output Coutput\ 
-program bin/wordcount 


| TE | 


另 一 种 方式 是 预先 将 配置 写 入 配置 文件 中 ， 如 下 所 示 : 





= 
<?xml version="1.0"?> 
<configuration> 
<property> 
//Set the binary path on DFS 
<name>hadoop.pipes.executable</name> 
<value>bin/wordcount</value> 
</property> 
<property> 
<name>hadoop.pipes.java.recordreader</name> 
<value>true</value> 
</property> 
<property> 
<name>hadoop.pipes.java.recordwriter</name> 
<value>true</value> 
</property> 
</configuration> 


p 
然后 通过 如 下 命令 运行 这 个 程序 ; 


~/hadoop/bin/hadoop pipes-conf word.xml-input input-output 
output 
二 














将 参数 hadoop.pipes.executable 和 hadoop.pipes.java.recordreader 设 置 为 tue 表 示 使 
Hadoop 默 认 的 输入 输出 方式 〈 即 Java 的 ) 。 同 样 的 ， 也 可 以 设置 一 个 Java 语 言 编写 的 Mapper 
函数 、Reducer 函 数 、combiner 函 数 和 partitioner 函 数 。 实 际 上 ， 在 任何 一 个 作业 中 ， 都 可 以 
混用 Java 类 和 C++ 类 。 








tt 























3.6 本 章 小 结 


本 章 主 要 介绍 了 MapReduce 的 计算 模型 ， 其 中 














ph 的 关键 内 容 是 一 个 流程 和 四 个 方法 。 一 个 
流程 指 的 是 数据 流程 ， 输 入 数据 到 <kl，v1>、<k，vl> 到 <I，v2>、 
KB, v3>. <B, v3> Fifa. M 





<K, v2 到 < 




















个 方法 就 是 这 个 数据 转换 过 程 中 使 用 的 方法 《分 别 是 
InputFormat, Map, Reduce, OutputFormat) ， 以 及 其 对 应 的 转换 过 程 。 除 此 之 外 ， 还 介绍 


了 MapReduce 编 程 框架 的 几 个 优化 方法 ， 以 及 Hadoop 流 和 Hadoop Pipes， 后 者 是 在 Hadoop 叶 
使 用 脚本 文件 及 C++ 编写 MapReduce 程 序 的 方法 。 
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第 4 章 ” 开 发 MapReduce 应 用 程序 





本 章 内 


oY 


系统 参数 的 配置 
配置 开发 环境 

编写 MapReduce 程 序 
本 地 测试 


运行 MapReduce 程 序 














网 络 用 户 界面 








MapReduce 工 作 流 





本 章 小 结 





在 前 面 的 章节 中 ， 已 经 介绍 了 MapReduce 模 型 。 在 本 章 中 ， 将 介绍 如 何在 Hadoop 中 开发 
MapReduce 的 应 用 程序 。 在 编写 MapReduce 程 序 之 前 ， 需 要 安装 和 配置 开发 环境 ， 因 此 ， 首 
先 要 学 习 如 何 进 行 配置 。 


























4.1 系统 参数 的 配置 
1. 通 过 API 对 相关 组 件 的 参数 进行 配置 


Hadoop 有 很 多 自己 的 组 件 ( 例 如 Hbase 和 Chukwa 等 ) ， 每 一 种 组 件 都 可 以 实现 不 同 的 功 
能 ， 并 起 着 不 同 的 作用 ， 通 过 多 种 组 件 的 配合 使 用 ，Hadoop 就 能 够 实现 非常 强大 的 功能 。 这 
些 可 以 通过 Hadoop 的 API 对 相关 参数 进行 配置 来 实现 。 









































先 简单 地 介绍 一 下 API [1] ， 它 被 分 成 了 以 下 几 个 部 分 〈 也 就 是 几 个 不 同 的 包 ) 。 
org. apache.hadoop.conf: 定义 了 系统 参数 的 配置 文件 处 理 API; 

org. apache.hadoop.fs: 定义 了 抽象 的 文件 系统 API; 

org. apache.hadoop.dfs: Hadoop 分 布 式 文件 系统 HDFS) 模块 的 实现 ; 


org. apache.hadoop.mapred: Hadoop 分 布 式 计算 系统 (MapReduce) 模块 的 实现 ， 包 括 
任务 的 分 发 调度 等 ; 

















org. apache.hadoop.ipc: 用 在 网 络 服务 端 和 客户 端的 工具 ， 封 装 了 网 络 异步 IO 的 基础 模 
块 ; 





























org. apache.hadoop.io: 定义 了 通用 的 IO API， 用 于 针对 网 络 、 数 据 库 、 文 件 等 数据 对 
象 进行 读 写 操作 等 。 












































在 此 我 们 需要 用 到 org.apache.hadoop.conf， 用 它 来 定义 系统 参数 的 配置 。Configurations 
类 由 源 来 设置 ， 每 个 源 包含 以 XML 形式 出 现 的 一 系列 属性 / 值 对 。 每 个 源 以 一 个 字符 串 或 一 
个 路 径 来 命名 。 如 果 是 以 字符 串 命 名 ， 则 通过 类 路 径 检查 该 字符 串 代 表 的 路 径 是 否 存在 ， 如 
果 是 以 路 径 命名 的 ， 则 直接 通过 本 地 文件 系统 进行 检查 ， 而 不 用 类 路 径 。 
































下 面 举 一 个 配置 文件 的 例子 。 


configuration-default. xm] 


| 

<?xml version="1.0"?> 

<configuration> 

<property> 

<name>hadoop.tmp.dir</name> 

<value>/tmp/hadoop-${usr.name}</value> 

<description>A base for other temporary directories. 
</description> 

</property> 

<property> 

<name>io.file.buffer.size</name> 

<value>4096</value> 

<description>the size of buffer for use in sequence file. 
</description> 

</property> 

<property> 

<name>height</name> 

<value>tall</value> 

<final>true</final> 

</property> 

</configuration> 


a i) 





这 个 文件 中 的 信息 可 以 通过 以 下 的 方式 进行 抽取 : 


全 = 
Configuration conf=new Configuration () ; 
Conf.addResource ("configuration-default.xml") ; 
aasertThat (conf.get ("hadoop.tmp.dir") , is ("/tmp/hadoop- 
${usr.name}") ) ; 
assertThat (conf.get ("io.file.buffer.size") , is ("4096") ); 
assertThat (conf.get ("height") , is ("tall") ); 


一 


2. 多 个 配置 文件 的 整合 

















假设 还 有 另外 一 个 配置 文件 configuration-site.xm1l， 其 中 具体 代码 细节 如 下 : 


configuration-site. xml 


1 
<?xml version="1.0"?> 
<configuration> 


<property> 

<name>io.file.buffer.size</name> 

<value>5000</value> 

<description>the size of buffer for use in sequence file. 
</description> 

</property> 

<property> 

<name>height</name> 

<value>short</value> 

<final>true</final> 

</property> 

</configuration> 
一 




















使 用 两 个 资源 configuation-defaultxml 和 configuration-site.xml 来 定义 配置 。 将 资源 按 顺 序 
添加 到 Configuration 之 中 ， 代 码 如 下 : 





p 
Configuration conf=new Configuration () ; 
conf.addResource ("configuration-default.xml") ; 
conf.addResource ("|configuration-site.xml") ; 


| | 





现在 不 同 资源 中 有 了 相同 属性 ， 但 是 这 些 属性 的 取 值 却 不 一 样 。 这 时 这 些 属 性 的 取 值 应 
该 如 何 确定 呢 ? 可 以 遵循 这 样 一 个 原则 : 后 添加 进来 的 属性 取 值 覆盖 掉 前 面 所 添加 资源 中 的 
属性 取 值 。 因 此 ， 此 处 的 属性 io.file.buffersize 取 值 应 该 是 5000 而 不 是 先前 的 4096， 即 : 


可 
局 























S 
assertThat (conf.get ("io.file.buffer.size") , is ("5000") ); 
_—_— SS _ SSS SsC*___a EESTI 


但 是 ， 有 一 个 特例 ， 被 标记 为 final 的 属性 不 能 被 后 面 定义 的 属性 覆盖 。Configuration- 
defaultxml 中 的 属性 height 被 标记 为 final， 因 此 在 configuration-site.xml 中 重 写 height 并 不 会 成 


功 ， 它 依然 会 从 configuration-defaultxml 中 取 值 : 





























一 
assertThat (conf.get ("height"), is ("tall") ); 
一 








写 标记 为 final 的 属性 通常 会 报告 配置 错误 ， 同 时 会 有 警告 信息 被 记录 下 来 以 便 为 诊断 
所 用 。 管 理 员 将 守护 进程 地 址 文件 之 中 的 属性 标记 为 final， 可 防止 用 户 在 客户 端 配 置 文件 中 


























tt 























或 作业 提交 参数 中 改变 其 取 值 。 




















Hadoop 默 认 使 


际 应 用 中 可 能 会 添加 





























两 个 源 进行 配置 ， 并 按 顺 序 加 载 core-defaultxml 和 core-site.xml。 在 实 














其 他 的 源 ， 应 按照 它们 添加 的 顺序 进行 加 载 。3 











定义 系统 默认 的 属性 ，core-site.xml 用 于 定义 在 特定 的 地 方 重 写 。 


[可 以 参考 htp: // 

















adoop.apache.org/common/docs/current/apic 


He 





hecore-defaultxml 
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4.2 配置 开发 环境 





























首先 下 载 准备 使 用 的 Hadoop 版 本 ， 然 后 将 其 解压 到 用 于 开发 的 主机 上 《详细 过 程 见 附录 
B) 。 接 下 来 ， 在 集成 开发 环境 中 创建 一 个 新 的 工程 ， 然 后 将 解压 后 的 文件 夹 根 目录 下 的 JAR 
文件 和 lib 目 录 之 下 的 JAR 文 件 加 入 到 classpath 中 。 之 后 就 可 以 编译 Hadoop 程 序 ， 并 且 可 以 在 
集成 开发 环境 中 以 本 地 模式 运行 。 



































Hadoop 有 三 种 不 同 的 运行 方式 : 单机 模式 、 伪 分 布 模式 、 完 全 分 布 模式 。 三 种 不 同 的 运 
行 方式 各 有 各 的 好 处 与 不 足 之 处 : 单机 模式 的 安装 与 配置 比较 简单 ， 运 行 在 本 地 文件 系统 
上 ， 便 于 程序 的 调试 ， 可 及 时 查看 程序 运行 的 效果 ， 但 是 当 数据 量 比较 大 时 运行 的 速度 会 比 
较 慢 ， 并 且 没 有 体现 出 Hadoop 分 布 式 的 优点 ; 伪 分 布 模式 同样 是 在 本 地 文件 系统 上 运行 ， 与 
单机 模式 的 不 同 之 处 在 于 它 运 行 的 文件 系统 为 HDFS， 这 种 模式 的 好 处 是 能 够 模仿 完全 分 布 
模式 ， 看 到 一 些 分 布 式 处 理 的 效果 ; 完全 分 布 模式 则 运行 在 多 台 机 器 的 HDFS 之 上 ， 完 完全 
全 地 体现 出 了 分 布 式 的 优点 ， 但 是 在 调试 程序 方面 会 比较 麻烦 。 






































在 实际 运用 中 ， 可 以 结合 这 三 种 不 同 模式 的 优点 ， 比 如 ， 编 写 和 调试 程序 在 单机 模式 和 
伪 分 布 模式 上 进行 ， 而 实际 处 理 大 数据 则 在 完全 分 布 模式 下 进行 。 这 样 就 会 涉及 三 种 不 同 模 
式 的 配置 与 管理 ， 相 关 配 置 和 管理 会 在 相应 的 章节 重点 讲解 。 























4.3 编写 MapReduce 程 序 


下 面 将 通过 一 个 计算 学 生平 均 成 绩 的 例子 来 讲解 开发 MapReduce 程 序 的 流程 。 程 序 主要 
包括 两 部 分 内 容 : Map 部 分 和 Reduce 部 分 ， 分 别 实现 Map 和 Reduce 的 功能 。 








4.3.1 Map 处 理 














Map 处 理 的 是 一 个 纯 文 本 文件 ， 此 文件 中 存放 的 数据 是 每 一 行 表示 一 个 学 生 的 姓名 和 他 
相应 的 一 科 成 绩 ， 如 果 有 多 门 学 科 ， 则 每 个 学 生 就 存在 多 行 数据 。 代 码 如 下 所 示 : 








eee 

public static class Map 

extends Mapper<LongWritable, Text, Text, IntWritable>{ 

public void map (LongWritable key, Text value, Context 
context) 

throws IOException, InterruptedException{ 

String line=value.toString © ; // 将 输入 的 纯 文 本 文件 的 数据 转化 成 
String 

System.out .println (line) ; // 为 了 便于 程序 的 调试 ， 输 出 读 入 的 内 容 

// 将 输入 的 数据 先 按 行 进行 分 割 

StringTokenizer tokenizerArticle=new 
StringTokenizer (line, "\n") ; 

// 分 别 对 每 一 行进 行 处 理 

while (tokenizerArticle.hasMoreTokens () ) { 

// 每 行 按 空格 划分 

StringTokenizer tokenizerLine=new 
StringTokenizer (tokenizerArticle.nextToken () ); 

String strName=tokenizerLine.nextToken () ; // 学 生 姓名 部 分 

String strScore=tokenizerLine.nextToken O ; // 成 绩 部 分 

Text name=new Text (strName) ; // 学 生 姓名 

int scoreInt=Integer.parseInt (strScore) ; // 学 生成 绩 score of 
student 

context.write (name, new IntWritable (scoreInt) ) ; // 输 出 姓名 和 
成 绩 

















通过 数据 集 进行 测试 ， 结 果 显 示 完 全 可 以 将 文件 中 的 姓名 和 他 相应 的 成 绩 提 取出 来 。 需 



































要 解释 的 是 : Mapper 处 理 的 数据 是 由 InputFormat 分 解 过 的 数据 集 ， 其 中 InputFormat 的 作 
是 将 数据 集 切 割 成 小 数据 集 InputSplit， 每 一 个 InputSplit 将 由 一 个 Mapper 负 责 处 理 。 此 外 ， 











InputFormat 中 还 提供 了 一 个 RecordReader 的 实现 ， 并 将 一 个 InputSplit 解 析 成 二 key, value 之 对 














提供 给 Map 函 数 。InputFormat 的 默认 值 是 TextInputFormat， 它 针对 文本 文件 ， 按 行将 文本 塘 

















制 成 InputSplit， 并 用 LineRecordReader 将 InputSplit 解 析 成 二 key, value> Xf, key 是 行 在 文本 中 











的 位 置 ，value 是 文件 中 的 一 行 




















本 程序 中 的 InputFormat 使 用 的 是 默认 值 TextInputFormat， 因 此 结合 上 述 程 序 的 注释 部 分 
不 难 理解 整个 程序 的 处 理 流程 和 正确 性 。 























4.3.2 Reduce 处 理 


Map 处 理 的 结果 会 通过 partition 分 发 到 Reducer, Reducer 做 完 Reduce 操 作 后 ， 将 通过 
OutputFormat 输 出 结果 ， 代 码 如 下 : 


二 一 
public static class Reduce 
extends Reducer<Text, IntWritable, Text, IntWritable>{ 
public void reduce (Text key, Iterable<IntWritable>values, 
Context context) throws IOException, InterruptedException{ 
int sum=0; 
int count=0; 
Iterator<IntWritable>iterator=values.iterator () ; 
while (iterator.hasNext () ) { 
sumt+=iterator.next () .get O ; // 计 算 总 分 
count++; / /统计 总 的 科目 数 
} 
int average= (int) sum/count; // 计 算 平均 成 绩 
context .write (key, new IntWritable (average) ) ; 
} 
} 


OOO? 
Mapper 最 终 处 理 的 结果 二 key, value 之 对 会 被 送 到 Reducer 中 进行 合并 ， 在 合并 的 时 候 ， 

有 相同 key 的 键 / 值 对 会 被 送 到 同一 个 Reducer 上 。Reducer 是 所 有 用 户 定制 Reducer 类 的 基 类 ， 

它 的 输入 是 key 及 这 个 key 对 应 的 所 有 value 的 一 个 迭代 器 ， 还 有 Reducer 的 上 下 文 。Reduce 处 

理 的 结果 将 通过 Reducer.Context 的 write 方 法 输出 到 文件 中 。 
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4.4 本 地 测试 


Score_Process 类 继承 于 Configured 的 实现 接口 Tool， 上 述 的 Map 和 Reduce 是 
Score_Process 的 内 部 类 ， 它 们 分 别 实现 了 Map 和 Reduce 功 能 ， 主 函数 存在 于 Score_Process 
中 。 下 面 创建 一 个 Score_Process 实 例 对 程序 进行 测试 。 





Score_processffJrun O 方法 的 实现 如 下 : 


eee 
public int run (String[]args) throws Exception{ 
Job job=new Job (getConf O ); 
job.setJarByClass (Score Process.class) ; 
job.setJobName ("Score Process") ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
job.setMapperClass (Map.class) ; 
job.setCombinerClass (Reduce.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setInputFormatClass (TextInputFormat.class) ; 
job.setOutputFormatClass (TextOutputFormat.class) ; 
FileInputFormat.setInputPaths (job, new Path (args[0]) ); 
FileOutputFormat.setOutputPath (job, new Path (args[1]) ):; 
boolean success=job.waitForCompletion (true) ; 
return success?0: 1; 


} 
二 一 


下 面 给 出 main O 函数 ， 对 程序 进行 测试 : 


_ | 
public static void main (String[]args) throws Exception{ 
int ret=ToolRunner.run (new Score Process Os args) $ 
System.exit (ret); 
} 
一 














如 果 程 序 要 在 Eclipse 中 执行 ， 那 么 用 户 需要 在 run congfiguration 中 设置 好 参数 ， 输 入 的 
文件 夹 名 为 input， 输 出 的 文件 夹 名 为 output。 











4.5 运行 MapReduce 程 序 


想 要 测试 人 体 的 健康 状况 ， 要 先知 道人 体 各 个 组 织 的 健康 状况 ， 然 后 再 综合 评价 人 体 的 
健康 状况 。 假 设 每 个 组 织 的 健康 指标 是 一 个 0 一 100 之 间 的 数字 ， 得 到 综合 身体 健康 状况 的 方 
法 是 计算 所 有 组 织 健康 指标 的 平均 数 。 由 于 测试 的 人 数 众 多 ， 因 此 存储 数据 的 格式 为 : 姓名 
+ 得 分 +#《 代 表 一 个 人 单个 人 体 组 织 的 健康 状况 ) ， 每 个 组 织 的 健康 状况 分 别 用 一 个 文件 存 
储 。 现 在 一 共有 1000 个 组 织 参与 了 评估 ， 即 用 1000 个 文件 分 别 存储 。 















































由 于 此 例 中 对 数据 的 处 理 与 前 面 对 学 生成 绩 进 行 的 简单 处 理 有 一 些 区 别 ， 下 面 先 将 程序 
的 主要 部 分 列举 出 来 。 





Mapper 部 分 的 代码 如 下 : 


[= | 
public static class Map 
extends Mapper<LongWritable, Text, Text, IntWritable>{ 
public void map (LongWritable key, Text value, Context 
context) 
throws IOException, InterruptedException{ 
String line=value.toString O ; 
// 以 \#” 为 分 隔 符 ， 将 输入 的 文件 分 割 成 单个 记录 
StringTokenizer tokenizerArticle=new 
StringTokenizer (line, "#") ; 
// 对 每 个 记录 进行 处 理 
while (tokenizerArticle.hasMoreTokens () ) { 
// 将 每 个 记录 分 成 姓名 和 分 数 两 个 部 分 
StringTokenizer tokenizerLine=new 
StringTokenizer (tokenizerArticle.nextToken () ) ; 
while (tokenizerLine.hasMoreTokens () ) { 
String strName=tokenizerLine.nextToken () ; 
if (tokenizerLine.hasMoreTokens () ) { 
String strScore=tokenizerLine.nextToken () ; 
Text name=new Text (strName) ; // 姓 名 
int scoreInt=Integer.parselInt (strScore) ; // 该 组 织 的 状况 得 分 
context .write (name, new IntWritable (scoreInt) ) ; 


} 
} 
} 
} 


ee | 


上 述 程序 比较 简单 ， 和 单 节点 上 的 代码 也 很 相似 ， 配 合 注释 就 能 够 很 好 地 理解 ， 因 此 就 
不 再 多 讲解 了 。 





下 面 是 Reducer 部 分 的 代码 : 


二 
public static class Reduce 
extends Reducer<Text, IntWritable, Text, IntWritable>{ 
public void reduce (Text key, Iterable<IntWritable>values, 
Context context) throws IOException, InterruptedException{ 
int sum=0; 
int count=0; 
Iterator<IntWritable>iterator=values.iterator (); 
while (iterator.hasNext () ) { 
sum+=iterator.next O .get O; 
countt+; 
} 
int average= (int) sum/count; 
context.write (key, new IntWritable (average) ); 
} 
} 


ee | 


4.5.1 打包 





为 了 能 够 在 命令 行 中 运行 程序 ， 首 先 需 要 对 它 进行 编译 和 打包 ， 下 面 就 分 别 展示 编译 和 
打包 的 过 程 。 


编译 代码 如 下 : 


一 一 
Javac-classpath/usr/local/hadoop/hadoop-1.0.1/hadoop-core- 
1.0.1.jar-d 
ScoreProcessFinal_ classes ScoreProcessFinal.java 


Sooo ——-€8OoO—F"FeeoOooeeoonnnnnnnauuauasa9 | 


上 述 命 令 会 将 ScoreProcessFinaljava 编 译 后 的 所 有 class 文 件 放 到 
ScoreProcessFinal_classes 文 件 夹 下 。 执 行 下 面 的 命令 打包 所 有 的 class 文 件 : 


M 
jar-cvf/usr/local/hadoop/hadoop- 


1.0.1/bin/ScoreProcessFinal.jar-C ScoreProcessFinal_classes/. 

标明 清单 (manifest) 

增加 ; ScoreProcessFinal$Map.class ( 读 入 =1899) ( 写 出 =806) (压缩 了 
57%) 

增加 : ScoreProcessFinal$Reduce.class( 读 入 =1671) ( 写 出 =707) (压缩 
757%) 

增加 : ScoreProcessFinal.class (#A=2374) ( 写 出 =1183) (压缩 了 
50%) 


Fs 二 = 


4.5.2 ”在 本 地 模式 下 运行 




















使 用 下 面 的 命令 以 本 地 模式 运行 打包 后 的 程序 ; 





“======= = 一 = = 
hadoop jar ScoreProcessFinal.jar inputOfScoreProcessFinal 
outputOfScoreProcessFinal 


| 


上 面 的 命令 以 inputOfScoreProcessFina] 为 输入 路 径 ， 同 时 以 outputOfScoreProcessFina] 为 
输出 路 径 。 


到 此 ， 我 们 已 经 将 编译 打包 和 在 本 地 模式 下 运行 的 情况 讲解 完了 。 








E 





接 下 来 讲解 程序 如 何在 集群 上 运行 。 在 笔者 的 实验 环境 中 ， 一 共有 4 台 机 器 ， 其 中 一 台 
同时 担当 JobTracker 和 NameNode 的 角色 ， 但 不 担当 TaskTracker 和 DataNode 的 角色 ， 男 外 3 台 
机 器 则 同时 担当 Tasktracker 和 DataNode 的 角色 。 




















首先 ， 将 输入 的 文件 复制 到 HDFS 中 ， 用 以 下 命令 完成 该 功能 : 


i 











一 

hadoop dfs- 
copyFromLocal/home/u/Desktop/inputOfScoreProcessFinal 
inputOfScoreProcessFinal 


ee | 


下 面 ， 在 命令 行 中 运行 程序 : 





EEG 
~/hadoop-0.20.2/bin$hadoop 
jar/home/u/TG/ScoreProcessFinal.jar 
ScoreProcessFinal inputOfScoreProcessFinal 
outputOfScoreProcessFinal 


| 





执行 上 述 命令 运行 ScoreProcessFinaljar 中 的 ScoreProcessFinal 类 ， 并 且 将 inputOf- 
ScoreProcessFinal 作 为 输入 ，outputOfScoreProcessFinal 作 为 输出 。 











4.6 网 络 用 户 界面 























Hadoop 自 带 的 网 络 用 户 界面 在 查看 工作 的 信息 时 很 方便 (在 http: //jobtracker-host: 
50030/ 中 能 找到 用 户 界面 ”。 在 Job 运 行 时 ， 它 对 于 跟踪 Job 工 作 进程 很 有 用 ， 同 样 在 工作 完 
成 后 查看 工作 统计 和 日 志 时 也 会 很 有 













































































4.6.1 JobTracker 页 面 


JobTracker 页 面 主要 包括 五 部 分 。 


第 一 部 分 是 Hadoop 安 装 的 详细 信息 ， 比 如 版 本 号 、 编 译 完成 时 间 、JobTracker 当 前 的 运 
行 状 态 和 开始 时 间 。 








第 二 部 分 是 集群 的 一 个 总 结 信息 : 集群 容量 〈 用 集群 上 可 用 的 Map 和 Reduce 任 务 槽 的 数 
量 表示 ) 及 使 用 情况 、 集 群 上 运行 的 Map 和 Reduce 的 数量 、 提 交 的 工作 总 量 、 当 前 可 用 的 
TaskTracker 节 点 数 和 每 个 节点 平均 可 用 槽 的 数量 。 






















































































第 三 部 分 是 一 个 正在 运行 的 工作 日 程 表 。 打 开 能 看 到 


工作 的 序列 。 

















第 四 部 分 显示 的 是 正在 运行 、 完 成 、 失 败 的 工作 ， 这 些 显示 信息 通过 表格 来 体现 。 表 中 
每 一 行 代 表 一 个 工作 并 且 显 示 了 工作 的 ID 号 、 所 属 者 、 名 字 和 进程 信息 。 

















最 后 一 部 分 是 页 面 的 最 下 面 JobTracker 日 志 的 链接 和 JobTracker 的 历史 信息 : JobTracker 
运行 的 所 有 工作 信息 。 在 将 这 些 信息 提交 到 历史 页 面 之 前 ， 主 要 显示 100 个 工作 (可 以 通过 
mapred.job.name 进 行 配置 ) 。 注 意 ， 历 史记 录 是 永久 保存 的 ， 因 此 可 以 从 JobTracler 以 前 运 
行 的 工作 中 找到 相关 的 记录 。 


























4.6.2 ”工作 页 面 








点 击 一 个 工作 的 ID 将 看 到 它 的 工作 页 面 。 在 工作 页 面 的 顶部 是 一 个 关于 工作 的 一 些 总 结 
性 基本 信息 ， 比 如 工作 所 属 者 、 名 字 、 工 作文 件 和 工作 已 经 执行 了 多 长 时 间 等 。 工 作文 件 是 
工作 的 加 强 配 置 文件 ， 包 含 在 工作 运行 期 间 所 有 有 效 的 属性 及 它们 的 取 值 。 如 果 不 确 定 某 个 
属性 的 取 值 ， 可 以 点 击 进一步 查看 文件 。 












































当 工作 运行 时 ， 可 以 在 页 面 上 监控 它 的 进展 情况 ， 因 为 页 面 会 周期 性 更 新 。 在 总 结 信息 
的 下 面 是 一 张 表 ， 它 显示 了 Map 和 Reduce 的 进展 情况 。“ 任 务 栏 ”显示 了 该 工作 的 Map 和 
Reduce 任 务 的 总 数 (Map 和 Reduce 各 占 一 行 ) 。 其 他 列 显示 了 这 些 任务 的 状态 : “暂停 ”〈 等 
待 执行 ) 、“ 正 在 执行 “完成 ”运行 成 功 ) 、“ 终 止 *” (准确 地 说 应 该 称 为 “失败 ") ， 最 后 
一 列 显示 了 失败 或 终止 的 任务 所 尝试 的 总 数 。 
































图 4-1 显 示 工 作 页 面 最 下 面 的 内 容 。 








图 4-1 是 每 个 任务 完成 情况 的 一 个 图 形 化 表示 。Reduce 完 成 图 分 为 3 个 阶段 : 复制 〈 发 生 
在 将 Map 输 出 转交 给 Reduce 的 TaskTracker 时 ) 、 排 序 〈 发 生 在 Reduce 输 入 合并 时 ) 和 
Reduce (发 生 在 Reduce 函 数 起 作用 并 产生 最 终 输 出 时 〉。 


| 
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Map Completion Graph - close 
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Reduce Completion Graph - close 
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图 41 








4.6.3 返回 结果 





执行 完 任务 后 ， 可 以 通过 以 下 几 种 方式 得 到 结果 。 





D 通过 命令 行 直接 显示 输出 文件 夹 中 的 文件 。 








命令 行 如 下 : 


u *‘“ ‘u ŘŘŘŮĖŮ 
hadoop dfs-ls outputOfScoreProcessFinal 


了 ER 





通过 以 上 命令 的 执行 结果 可 以 发 现 ， 输 出 的 结果 中 一 共有 6 个 文件 ， 分 别 是 part-r-00000 
到 part-r-00005。 还 可 以 具体 显示 每 个 文件 中 的 内 容 ， 例 如 要 显示 part-r-00000 中 的 内 容 ， 命 
令 如 下 : 


TTT | 
hadoop dfs-cat outputOfScoreProcessFinal/part-r-00000 


_— j 











2) 将 输出 的 文件 从 HDFS 复 制 到 本 地 文件 系统 上 ， 在 本 地 文件 系统 上 查看 。 


命令 如 下 : 


[ee | 
hadoop dfs-get 
outputOfScoreProcessFinal/*/home/u/outputOfScoreProcessFinal 


ee | 


上 述 命令 的 主要 功能 是 将 HDFS 中 目录 outputOfScoreProcessFinal 下 的 所 有 文件 复制 到 本 
地 文件 系统 的 目录 /home/u/outputOfScoreProcessFinal 下 ， 然 后 就 可 以 方便 地 进行 查看 了 。 








另外 还 可 以 在 命令 行 中 将 输出 文件 part-r-00000 到 part-r-00005 合 并 成 一 个 文件 ， 并 复制 
到 本 地 文件 系统 中 。 下 面 就 是 在 命令 行 中 进行 的 操作 : 
二 一 


hadoop dfs-getmerge 
outputOfScoreProcessFinal/home/u/outputScore 


人 











上 述 命 令 的 功能 就 是 ， 将 HDFS 中 目录 outputOfScoreProcessFinal 下 的 所 有 文件 〈 即 part- 
IT-00000 到 partr-00005) 进行 合并 ， 然 后 复制 到 本 地 文件 系统 中 的 目录 /home/u/outputScore 
Fe 








3) 通过 Web 界 面 查看 输出 的 结果 。 








通过 浏览 器 访问 集群 的 NameNode 界 面 ， 点 击 页 面 上 的 “Browse the filesy stem” 即 可 看 到 
HDFS 中 的 内 容 ， 依 次 点 击 home、u、outputOfScoreProcessFinal， 就 可 以 看 到 程序 的 输出 文 
件 ， 再 点 击 各 个 具体 的 输出 文件 可 以 查看 输出 内 容 。 











4.6.4 任务 页 面 























工作 页 面 中 的 一 些 链接 可 以 用 来 查看 该 工作 中 任务 的 详细 信息 。 例 如 ， 点 击 “Map” 链 
接 ， 将 看 到 一 个 页 面 ， 所 有 的 Map 任 务 信息 都 列 在 这 一 页 上 。 当 然 ， 也 可 以 只 看 已 经 完成 的 
任务 。 任 务 页 面 显 示 信 息 以 表格 形式 来 体现 ， 表 中 的 每 一 行 都 表示 一 个 任务 ， 它 包含 了 诸如 




















开始 时 间 、 结 束 时 间 之 类 的 信息 ， 以 及 由 TaskTracker 提 供 的 错误 信息 和 查看 单个 任务 的 计数 
器 的 链接 。 同 样 ， 点 击 “Reduce” 链 接 也 可 以 看 到 一 个 页 面 ， 所 有 的 Reduce 任 务 信息 都 列 在 这 
一 页 上 。 同 样 可 以 只 看 已 经 完成 的 任务 。 显 示 的 信息 内 容 与 Map 界 面 的 相同 。 


























4.6.5 A 


在 





E 务 细节 页 面 


任务 页 面 上 可 以 点 击 任何 任务 来 得 到 关于 它 的 详细 信息 。 图 4-2 的 任务 细节 页 面 显示 了 





每 个 任务 的 尝试 情况 。 在 这 里 ， 只 有 一 个 任务 尝试 并 且 成 功 完成 。 图 中 包含 的 表格 提供 了 更 


多 的 





有 




















对 

















Be. KA 





























于 Ma 








片段 被 分 配 到 了 哪个 节点 上 。 


Job job_201101042117 0035 


All Task Attempts 


Tost Attempts 


wots 
taceuaves 


atong 201101042127 0035 e 000588,0 | 


p 任 务 ， 有 一 个 部 分 〈 即 图 4-2 中 的 “Input Split Location” 





数据 ， 比 如 任务 尝试 是 在 哪个 节点 上 运行 的 ， 同 时 还 可 以 查看 任务 日 志文 件 和 计数 
还 包含 "Actions" 列 ， 可 终止 一 个 任务 尝试 的 链接 。 默 认 情况 下 ， 这 项 功 


的 ， 网 络 用 户 界面 只 是 一 个 只 读 接口 。 将 webinterface.private.actions 设 为 true 即 


KIR) 信息 显示 了 输入 的 


Progon 


ccaroeD | 2000% 





metan 


atomen 201101042137 O08S en 000%96 1 


| oa<aysiwve2 





input Split Locations 


Alad recieve? 
Wale rocelaved 


Qn Cort in the ED 
Go Deck to Obl racker 
one 


A 42 任务 尝试 页 面 








一 个 程序 可 以 完成 基本 功能 其 实 还 不 够 ， 还 有 一 些 具有 实际 意义 的 问题 需要 解决 ， 比 如 
是 不 是 足够 好 、 有 没有 提高 的 空间 等 。 具 体 来 讲 包括 两 个 方面 的 内 容 ， 一 个 是 时 间 性 
能 ， 另 一 个 是 空间 性 能 。 衡 量 性 能 的 指标 就 是 ， 能 够 在 正确 完成 功能 的 基础 上 ， 使 执行 的 时 
占用 的 空间 尽量 小 。 























前 面 只 是 实现 了 程序 基本 应 该 实现 的 功能 ， 对 性 能 问题 并 没有 加 以 考虑 。 下 面 就 从 不 同 
的 角度 来 简单 地 介绍 一 下 提高 性 能 的 方法 。 

















4.7.1 输入 采用 大 文件 























在 前 面 的 例子 当中 ， 笔 者 的 实验 数据 包含 1000 个 文件 ， 在 HDFS 中 共 占 用 了 1000 个 文件 
块 ， 而 每 一 个 文件 的 大 小 都 是 2.3MB， 相 对 于 HDFS 块 的 默认 大 小 64MB 来 说 算是 比较 小 的 
了 。 如 果 MapReduce 在 处 理 数据 时 ，Map 阶 段 输 入 的 文件 较 小 而 数量 众多 ， 就 会 产生 很 多 的 
Map 任 务 ， 以 前 面 的 输入 为 例 ， 一 共产 生 了 1000 个 Map 任 务 。 每 次 新 的 Map 任 务 操作 都 会 造 
成 一 定 的 性 能 损失 。 针 对 上 述 2.2GB 大 小 的 数据 ， 在 实验 环境 中 运行 的 时 间 大 概 为 33 分 钟 。 















































为 了 尽量 使 用 大 文件 的 数据 ， 笔 者 对 这 1000 个 文件 进行 了 一 次 预 处 理 ， 也 就 是 将 这 些 数 
量 众多 的 小 文件 合并 成 大 一 些 的 文件 ， 最 终 将 它们 合并 成 了 一 个 大 小 为 2.2GB 的 大 文件 。 然 
后 再 以 这 个 大 文件 作为 输入 ， 在 同样 的 环境 中 进行 测试 ， 运 行 的 时 间 大 概 为 4 分 钟 。 














从 实验 结果 可 以 很 明显 地 看 出 二 者 在 执行 时 间 上 的 差别 非常 大 。 因 此 为 了 提高 性 能 ， 应 
该 对 小 文件 做 一 些 合理 的 预 处 理 ， 变 小 为 大 ， 从 而 缩短 执行 的 时 间 。 不 仅 如 此 ， 合 并 前 的 众 
多 文件 在 HDFS 中 占用 了 1000 个 块 ， 而 合并 后 的 文件 在 HDFS 中 只 占用 36 个 块 〈64MB 为 一 
块 ) ， 占 用 空间 也 相应 地 变 小 了 ， 可 谓 一 举 两 得 。 



























































另外 ， 如 果 不 对 小 文件 做 合并 的 预 处 理 ， 也 可 以 借用 Hadoop 中 的 
CombineFileInputFormat。 它 可 以 将 多 个 文件 打包 到 一 个 输入 单元 中 ， 从 而 每 次 执行 Map 操 作 




















就 会 处 理 更 多 的 数据 。 同 时 ，CombineFileInputFormat 会 考虑 节点 和 集群 的 位 置信 息 ， 以 决定 














哪些 文件 被 打包 到 一 个 单元 之 中 ， 所 以 使 用 CombineFileInputFormat 也 会 使 性 能 得 到 相应 地 提 











Ho 


4.7.2 ”压缩 文件 








在 分 布 式 系统 中 ， 不 同 节点 的 数据 交换 是 影响 整体 性 能 的 一 个 重要 因素 。 另 外 在 Hadoop 
的 Map 阶 段 所 处 理 的 输出 大 小 也 会 影响 整个 MapReduce 程 序 的 执行 时 间 。 这 是 因为 Map 阶 段 
的 输出 首先 存储 在 一 定 大 小 的 内 存 缓冲 区 中 ， 如 果 Map 输 出 的 大 小 超出 一 定 限度 ，Map task 
就 会 将 结果 写 入 磁盘 ， 等 Map 任 务 结束 后 再 将 它们 复制 到 Reduce 任 务 的 节点 上 。 如 果 数 据 量 
大 ， 中 间 的 数据 交换 会 占用 很 多 的 时 间 。 
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提高 性 能 的 方法 是 对 Map 的 输出 进行 压缩 。 这 样 会 带 来 以 下 几 个 方面 的 好 处 : 减少 
存储 文件 的 空间 ; 加 快 数据 在 网 络 上 不 同 节点 间 》 的 传输 速度 ， 以 及 减少 数据 在 内 存 和 磁 
盘 间 交换 的 时 间 。 可 以 通过 将 mapred.compress.map.output 属 性 设置 为 tue 来 对 Map 的 输出 数 
据 进行 压缩 ， 同 时 还 可 以 设置 Map 输 出 数据 的 压缩 格式 ， 通 过 设置 
mapred.map.output.compression.codec 属 性 即 可 进行 压缩 格式 的 设置 。 








4.7.3 ”过 滤 数 据 


数据 过 


在 数据 处 理 的 





器 数据 结果 来 完成 过 





何在 MapReduced 


Bloom Filter 是 在 


过 候 如 何 进行 数据 过 滤 呢 ? 在 MapReduce 中 五 
法 完成 数据 预 处 理 中 的 数据 过 滤 ， 比 如 编写 预 处 理 程序 
的 处 理 数据 ;也 可 以 在 数据 处 理 任务 的 最 开始 代码 处 加 上 过 
过 滤 。 下 
P 对 海量 数 # 


过 滤 主 要 指 在 面 对 海量 输入 数据 作业 时 ， 在 作业 执行 之 前 先 将 数据 中 无 月 
声 数据 和 异常 数据 清除 。 通 过 数据 过 滤 可 以 降低 数据 处 理 的 规模 ， 较 大 程度 
效率 ， 同 时 避免 异常 数据 或 不 规范 数据 对 最 


终结 


Bean 


果 造 成 负面 影响 。 





滤 条 件 ; 











笔者 以 一 种 在 并 行程 序 中 
据 进行 过 滤 。 


ff 功能 强大 











970 年 由 Howard Bloom 提 出 的 二 进 制 向 量 数据 





元 素 特征 的 同时 ， 
hb 的 成 员 。 
会 对 集合 外 的 数据 产 
集合 内 


集合 








它 能 在 保证 高 
Bloom Filter 的 误 报 (false positive) 只 会 发 生 





效 空 间 效 率 和 一 定 出 错 率 的 前 提 下 迅 








漏 报 (false negative) 。 
〈 绝 对 不 在 集合 内 ) 


这 样 每 个 检测 请 求 返 











区 时 间 和 空间 ， 所 以 








i 合 那些 “ 零 错 误 ” 的 应 月 





它 不 适 





Bloom Filter: 





key 是 否 在 Filter 内 。 


以 上 说 明了 Bloom Filter 的 大 概 思想 ， 那 么 在 实践 
表 需 要 进行 内 连接 ， 其 中 一 
络 带宽 ， 可 以 基于 小 表 创 建 连 接 列 上 的 Bloom Filter。 


小 表 中 所 有 连接 列 上 





(此 类 继承 了 Filter 
add (Key key) 函数 将 一 个 ley 值 加 入 Filter， 使 


， Filkter 类 实现 了 Writable 序 





























Ph 如 何 使 
个 表 非 常 大 ， 另 一 个 表 非 常 小 ， 














的 值 都 保存 到 Bloom Filter 4 





接 。 在 连接 的 Map 阶 段 ， 读 小 表 的 数据 时 直接 输出 以 连接 列 值 为 key、 


value>xt; 读 大 表 数 





据 时 ， 在 输出 前 先 判断 当前 元 组 的 连接 列 值 是 


P 可 以 根据 过 滤 
序 ， 在 程序 中 加 上 过 滤 


的 过 


上 在 检测 集合 内 的 数据 上 ， 而 不 


”两 种 情况 ， 可 见 Bloom Filter 牺 牲 了 极 少 
场合 。 在 MapReduced 
列 化 接口 ) 实现 ， 使 用 
membershipTest (Key key ) 来 测 














数据 、 噪 
也 提高 数据 处 理 











条 件 利用 很 多 办 
条 件 ， 形 成 真正 
还 可 以 使 用 特殊 的 过 滤 
滤器 结构 为 例 来 介绍 如 
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保存 所 有 集 
起 速 检测 一 个 元 素 是 
(可 能 
E 确 率 换 
ter FH 
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Bloom Fil 
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试 某 个 


Bloom Filter 呢 ?假设 有 两 个 
这 时 为 了 加 快 处 理 速 度 和 减 小 网 
具体 做 法 是 先 创 建 Bloom Filter 对 象 ， 将 
Ph， 然后 开始 通过 MapReduce 作 业 执 行 


内 连 
以 数据 为 value 的 二 key， 
， 如 果 





否 在 Bloom Filter 内 




















不 存在 就 说 明 在 后 面 的 连接 阶段 不 会 使 用 到 ， 不 需要 输出 ， 如 果 存 在 就 采用 与 小 表 同 样 的 输 
出 方式 输出 。 最 后 在 Reduce 阶 段 ， 针 对 每 个 连接 列 值 连接 两 个 表 的 元 组 并 输出 结果 。 





























大 家 已 经 知道 了 Bloom Filter 的 作用 和 使 用 方法 ， 那 么 Bloom Filter 具 体 是 如 何 实现 的 呢 ? 
又 是 如 何 保证 空间 和 时 间 的 高 效 性 呢 ? 如 何 用 正确 率 换取 时 间 和 空间 的 呢 ? (基于 
MapReduce 中 实现 的 BloomEFilter 代 码 进行 分 析 ) Bloom Filter 自 始 至 终 是 一 个 M 位 的 位 数组 : 



































ER 一， 

private static final byte[]bitvalues=new byte[]{ 

(byte) 0x01, 

(byte) 0x02, 

(byte) 0x04, 

(byte) 0x08, 

(byte) 0x10, 

(byte) 0x20, 

(byte) 0x40, 

(byte) 0x80 

}s 
eee 


它 有 两 个 重要 接口 ， 分 别 是 add () AlmembershipTest O , add O 负责 保存 集合 元 素 
的 特征 到 位 数组 〈 类 似 于 一 个 学 习 的 过 程 ) ， 在 保存 所 有 集合 元 素 特征 之 后 可 以 使 
membershipTest () 来 判断 某 个 值 是 否 是 集合 中 的 元 素 。 























在 初始 状态 下 ，Bloom Filter 的 所 有 位 都 被 初始 化 为 0。 为 了 表示 集合 中 的 所 有 元 素 ， 
Bloom Fliter 使 用 k 个 互相 独立 的 Hash 函 数 ， 它 们 分 别 将 集合 中 的 每 个 元 素 映 射 到 (1，2， 
sates > M) 这 个 范围 上 ， 映 射 的 位 置 作 为 此 元 素 特征 值 的 一 维 ， 并 将 位 数组 中 此 位 置 的 值 设 
置 为 1， 最 终 得 到 的 k 个 Hash 函 数值 将 形成 集合 元 素 的 特征 值 向 量 ， 同 时 此 向 量 也 被 保存 在 位 
数组 中 。 从 获取 k 个 Hash 函 数值 到 修改 对 应 位 数组 值 ， 这 就 是 add 接 口 所 完成 的 任务 。 


=] 
public void add (Key key) { 
if (key==null) { 
throw new NullPointerException ("key cannot be null"); 
} 
int[]h=hash.hash (key) ; 
hash.clear () ; 
for (int i=0; i<nbHash; i++) { 





















































bits.set (h[i]); 








利用 add 接 
器 也 就 是 nem 


























口 将 所 有 集合 元 素 的 特征 值 向 量 保存 到 Bloom Filter 之 后 ， 就 可 以 使 用 此 过 滤 
ershipTest 接 口 来 判断 某 个 值 是 否 是 集合 元 素 。 在 判断 时 ， 首 先 还 是 计算 待 判 








断 值 的 特征 值 向 量 ， 也 就 是 k 个 Hash 函 数值 ， 然 后 判断 特征 值 向 量 每 一 维 对 应 的 位 数组 位 置 


上 的 值 是 否 是 1 





， 如 果 全 部 是 1， 那 么 membershipTest 返 回 true， 和 否则 返回 false， 这 就 是 判断 





值 是 否 存在 于 集合 中 的 原理 。 


一 
public boolean membershipTest (Key key) { 
if (key==null) { 
throw new NullPointerException ("key cannot be null"); 


} 


int[]h=hash.hash (key) ; 
hash.clear O ; 
for (int i=0; i<nbHash; i++) { 


if (! bi 


ts.get (h[i])) { 


return false; 


} 
} 


return true; 


} 


| | 


从 上 面 add 





出 ，Hash 函 数 上 





接口 和 membershipTest 接 口 实现 的 原理 可 以 看 出 ， 正 是 Hash 函 数 冲突 的 可 能 





性 导致 误 判 的 可 能 。 由 于 Hash 函 数 冲 突 ， 两 个 值 的 特征 值 向量 也 有 可 能 冲突 〈k 个 Hash 函 数 
全 部 冲突 ) 。 如 果 两 个 值 中 只 有 一 个 是 集合 元 素 ， 那 么 该 值 的 特征 值 向 量 会 保存 在 位 数组 
中 ， 从 而 在 判断 另外 一 个 非 集合 元 素 的 值 时 ， 会 发 现 该 值 的 特征 值 向 量 已 

中 ， 最 终 返回 tue， 形 成 误 判 。 那 么 都 有 哪些 因素 影响 了 错误 率 呢 ? 通过 上 面 的 分 析 可 以 看 




















经 保存 在 位 数组 














的 个 数 和 位 数组 的 大 小 影响 了 错误 率 。 位 数组 越 大 ， 特 征 值 向 量 冲突 的 可 能 性 








越 小 ， 错 误 率 也 小 。 在 位 数组 大 小 一 定 的 情况 下 ，Hash 函 数 个 数 越 多 ， 形 成 的 特征 值 向 量 维 














BLS, MRM 











的 可 能 性 越 小 ， 但 是 维 数 越 多 ， 占 用 的 位 数组 位 置 越 多 ， 又 提高 了 冲突 的 可 能 





























性 。 所 以 在 实际 应 用 中 ， 在 使 用 Bloom Filter 时 应 根据 实际 需要 和 一 定 的 估计 来 确定 合适 的 数 














组 规模 和 哈 希 函数 规模 。 


通过 上 面 的 介绍 和 分 析 可 以 发 现 ， 在 Bloom Filter 中 插入 元 素 和 查询 值 都 是 O (1) 的 操 

E， 同 时 它 并 不 保存 元 素 而 是 采用 位 数组 保存 特征 值 ， 并 且 每 一 位 都 可 以 重复 利用 。 所 以 同 
集合 、 链 表 和 树 等 传统 方法 相 比 ，Bloom Filter 无 疑 在 时 间 和 空间 性 能 上 都 极为 优秀 。 但 错误 
率 限 制 了 Bloom Filter 的 使 用 场景 ， 只 允许 误 报 (false positive) 的 场景 ， 同 时 由 于 一 位 多 

， 因 此 Bloom Filter 并 不 支持 删除 集合 元 素 ， 在 删除 某 个 元 素 时 可 能 会 同时 删除 另外 一 个 元 
素 的 部 分 特征 值 。 图 4-3 是 一 个 简单 的 例子 ， 既 说 明了 Bloom Filter 的 实现 过 程 ， 又 说 明了 错 

误 发 生 的 原因 (步骤 @ 判 断 的 值 是 包含 在 集合 中 的 ， 但 是 返回 值 为 rue 〉。 
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图 4-3 Bloom Filter 实 现 过 程 图 





4.7.4 修改 作业 属性 


属性 mapred.tasktrackermap.tasks.maximum 的 默认 值 是 2， 属 性 
mapred.tasktracker.map.tasks.maximum 的 默认 值 也 是 2， 因 此 每 个 节点 上 实际 处 于 运行 状态 的 
Map 和 Reduce 的 任务 数 最 多 为 2， 而 较为 理想 的 数值 应 在 10 一 100 之 间 。 因 此 ， 可 以 在 conf 目 
录 下 修改 属性 mapred.tasktracker.map.tasks.maximum 和 
mapred.tasktracker.reduce.tasks.maximum 的 取 值 ， 将 它们 设置 为 一 个 较 大 的 值 ， 使 得 每 个 节 
点 上 同时 运行 的 Map 和 Reduce 任 务 数 增加 ， 从 而 缩短 运行 的 时 间 ， 提 高 整体 的 性 能 。 











5| 














例如 下 面 的 修改 : 


OOOO | 
<property> 
<name>mapred.tasktracker.map.tasks.maximum</name> 
<value>10</value> 
<description>The maximum number of map tasks that will be 
run 
simultaneously by a task tracker. 
</description> 
</property> 
<property> 
<name>mapred.tasktracker.reduce.tasks.maximum</name> 
<value>10</value> 
<description>The maximum number of reduce tasks that will be 
run 

simultaneously by a task tracker. 

</description> 

</property> 
TTF | 





4.8 MapReduce 工 作 流 

















到 目前 为 止 ， 已 经 讲述 了 使 用 MapReduce 编 写 程序 的 机 制 。 不 过 还 没有 讨论 如 何 将 数据 
处 理 问 题 转 化 为 MapReduce 模 型 。 


数据 处 理 只 能 解决 一 些 非常 简单 的 问题 。 如 果 处 理 过 程 变 得 复杂 了 ， 这 种 复杂 性 会 通过 
更 加 复杂 、 完 善 的 Map 和 Reduce 函 数 ， 甚 至 更 多 的 MapReduce 工 作 来 体现 。 下 面 简单 介绍 一 
些 比较 复杂 的 MapReduce 编 程 知识 。 





4.8.1 复杂 的 Map 和 Reduce 函 数 


从 前 面 Map 和 Reduce 函 数 的 代码 很 明显 可 以 看 出 ，Map 和 Reduce 都 继承 自 MapReduce 自 
己 定义 好 的 Mapper 和 Reducer 基 类 ，MapReduce 框 架 根据 用 户 继承 Mapper 和 Reducer 后 的 衍 
生 类 和 类 中 覆盖 的 核心 函数 来 识别 用 户 定义 的 Map 处 理 阶 段 和 Reduce 处 理 阶段 。 所 以 只 有 
户 继承 这 些 类 并 且 实 现 其 中 的 核心 函数 ， 提 交 到 MapReduce 框 架 上 的 作业 才能 按照 用 户 的 意 
愿 被 解析 出 来 并 执行 。 前 面 介 绍 的 MapReduce 作 业 仅仅 继承 并 政 盖 了 基 类 中 的 核心 函数 Map 
或 Reduce， 下 面 介 绍 基 类 中 的 其 他 函数 ， 使 大 家 能 够 编写 功能 更 加 复杂 、 控 制 更 加 完备 的 
Map 和 Reduce 函 数 。 











































































































1.setup 函 数 


此 函数 在 基 类 中 的 源码 如 下 : 





一 
/** 
*Called once at the start of the task. 
*/ 
protected void setup (Context context 
) throws IOException, InterruptedException{ 
//NOTHING 
} 


一 








从 上 面 的 注释 可 以 看 出 ，setup 函 数 是 在 task 启 动 开始 就 调用 的 。 在 这 里 先 温习 一 Ftask 的 

















知识 。 在 MapReduce 中 作业 会 被 组 织 成 Map task 和 Reduce task。 每 个 task 都 以 Map 类 或 Reduce 
类 为 处 理 方法 主体 ， 输 入 分 片 为 处 理 方法 的 输入 ， 自 己 的 分 片 处 理 完 之 后 task 也 就 销毁 了 。 
从 这 里 可 以 看 出 ，setup 函 数 在 task 启 动 之 后 数据 处 理 之 前 只 调用 一 次 ， 而 覆盖 的 Map 函 数 或 
Reduce 函 数 会 针对 输入 分 片 中 的 每 个 ley 调 用 一 次 。 所 以 setup 函 数 可 以 看 做 task 上 的 一 个 全 局 
处 理 ， 而 不 像 在 Map 函 数 或 Reduce 函 数 中 ， 处 理 只 对 当前 输入 分 片 中 的 正在 处 理 数据 产生 作 
。 利 用 setup 函 数 的 特性 ， 大 家 可 以 将 Map 或 Reduce 函 数 中 的 重复 处 理 放置 到 setup 函 数 中 ， 
J 以 将 Map 或 Reduce 函 数 处 理 过 程 中 可 能 使 用 到 的 全 局 变量 进行 初始 化 ， 或 从 作业 信息 中 获 
全 局 变量 ， 还 可 以 监控 task 的 启动 。 需 要 注意 的 是 ， 调 用 setup 函 数 只 是 对 应 task 上 的 全 局 操 
FE， 而 不 是 整个 作业 的 全 局 操作 。 
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2.cleanup 函 数 


cleanup 函 数 在 基 类 中 的 源码 如 下 : 





= 
[** 
*Called once at the end of the task. 
ay 
protected void cleanup (Context context 
) throws IOException, InterruptedException{ 
//NOTHING 
} 


i 





从 这 个 函数 的 注释 中 可 以 看 到 ， 它 跟 setup 函 数 相 似 ， 不 同 之 处 在 于 cleanup 函 数 是 在 task 
销毁 之 前 执行 的 。 它 的 作用 和 setup 也 相似 ， 区 别 仅 在 于 它 的 启动 处 在 task 销 毁 之 前 ， 所 以 不 
再 袭 述 cleanup 的 作用 。 大 家 应 根据 具体 使 用 环境 和 这 两 个 函数 的 特点 ， 做 出 恰当 的 选择 。 
























































3.run 函 数 





run 函 数 在 基 类 中 的 源码 如 下 : 


一 
[** 
*Expert users can override this method for more complete 
control over the 


*execution of the Mapper. 
*@param context 

*@throws IOException 

hi 


public void run (Context context) throws IOException, 


InterruptedException{ 
setup (context) ; 


while (context.nextKeyValue () ) { 
map (context.getCurrentKey () , context.getCurrentValue () ， 


context) ; 
} 
cleanup (context) ; 
} 


| | 





从 上 面 函 数 的 主体 内 容 和 代码 的 注释 可 

















法 : 先 调用 setup 函 数 ， 然 后 针对 每 个 key 调 


























以 看 出 ， 此 函数 是 Map 类 或 Reduce 类 的 启动 方 
次 Map 函 数 或 Reduce 函 数 ， 最 后 销毁 task 之 前 


再 调用 cleanup 函 数 。 这 个 run 函 数 将 Map 阶 段 和 Reduce 阶 段 的 代码 过 程 呈 现 给 了 大 家 。 正 如 





注释 中 所 说 ， 如 果 想 更 加 完备 地 控制 Map 或 者 Renduce 阶 段 ， 可 以 覆盖 此 函数 ， 并 像 普 通 的 








Java 类 中 的 函数 一 样 添加 自己 的 控制 内 容 ， 





处 理 结果 进行 进一步 的 处 理 。 














比如 增加 自己 的 task 启 动 之 后 和 销毁 之 前 的 处 理 ， 
或 者 在 while 循 环 内 外 再 定义 自己 针对 每 个 key 的 处 理 内 容 ， 甚 至 可 以 对 Map 和 Re 





uce 函 数 的 

















4.8.2 MapReduce Job 中 全 局 共享 数据 





在 编写 MapReduce 代 码 的 时 候 ， 经 常会 遇 到 这 样 的 困扰 : 全 局 变量 应 该 如 何 保存 ”如何 
让 每 个 处 理 都 能 获取 保存 的 这 些 全 局 变量 ? 在 编程 过 程 中 全 局 变量 的 使 用 是 不 可 避免 的 ， 但 
是 在 MapReduce 中 直接 使 用 代码 级 别 的 全 局 变量 是 不 现实 的 。 这 主要 是 因为 继承 Mapper 基 类 
的 Map 阶 段 类 的 运行 和 继承 Reducer 基 类 的 Reduce 阶 段 类 的 运行 都 是 独立 的 ， 并 不 像 代 码 看 
起 来 的 那样 会 共享 同一 个 Java 虚 拟 机 的 资源 。 下 面 介绍 几 种 在 MapReduce 编 程 中 相对 有 效 的 
设置 全 局 共享 数据 的 方法 。 



























































1. 读 写 HDFS 文 件 








在 MapReduce 框 架 中 ，Map task 和 Reduce task 都 运行 在 Hadoop 集 群 的 节点 上 ， 所 以 Map 





task 和 Reduce task、 甚 至 不 同 的 Job 都 可 以 通过 读 写 HDFS 中 预定 好 的 同一 个 文件 来 实现 全 局 共 























享 数据 。 有 具体 实现 是 利用 Hadoop 的 Java API〔〈 关 于 Java API 请 参见 第 9 章 ) 来 完成 的 。 需 要 
注意 的 是 ， 针 对 多 个 Map 或 Reduce 的 写 操作 会 产生 冲突 ， 覆 盖 原 有 数据 。 











这 种 方法 的 优点 是 能 够 实现 读 写 ， 也 比较 直观 ， 而 缺点 是 要 共享 一 些 很 小 的 全 局 数据 也 
需要 使 用 HKO， 这 将 占用 系统 资源 ， 增 加 作业 完成 的 资源 消耗 。 
































2. 配 置 Job 属 性 


在 MapReduce 执 行 过 程 中 ，task 可 以 读 取 Job 的 属性 。 基 于 这 个 特性 ， 大 家 可 以 在 任务 启 
动 之 初 利 用 Configuration 类 中 的 set (String name, String value) 将 一 些 简 单 的 全 局 数据 封装 到 









































作业 的 配置 属性 中 ， 然 后 在 task 中 再 利用 Configuration 类 中 的 get (String name) 获取 配置 到 属 
性 中 的 全 局 数据 。 这 种 方法 的 优点 是 简单 ， 资 源 消耗 小 ， 缺 点 是 对 量 比较 大 的 共享 数据 显得 
比较 无 力 。 



































3. 使 用 DistributedCache 























DistributedCache 是 MapReduce 为 应 用 提供 缓存 文件 的 只 读 工具 ， 它 可 以 缓存 文本 文件 、 


























压缩 文件 和 jar 文 件 等 。 在 使 用 时 ， 用 户 可 以 在 作业 配置 时 使 用 本 地 或 HDFS 文 件 的 URL 来 将 
其 设置 成 共享 缓存 文件 。 在 作业 启动 之 后 和 task 启 动 之 前 ，MapReduce 框 架 会 将 可 能 需要 的 

缓存 文件 复制 到 执行 任务 节点 的 本 地 。 这 种 方法 的 优点 是 每 个 Job 共 享 文件 只 会 在 启动 之 后 复 
制 一 次 ， 并 且 它 适用 于 大 量 的 共享 数据 ， 而 缺点 是 它 是 只 读 的 。 下 面 举 一 个 简单 的 例子 说 明 
如 何 使 用 DistributedCache (具体 的 示例 程序 可 查看 本 书 附 录 C) 。 




























































































D 将 要 缓存 的 文件 复制 到 HDFS 上 。 


i 
$bin/hadoop fs-copyFromLocal lookup/myapp/lookup 
[ee | 

















2) 启用 作业 的 属性 配置 ， 并 设置 待 缓存 文件 。 








AR 
Configuration conf=new Configuration O) ; 
DistributedCache.addCacheFile (new 

URI ("/myapp/lookup#lookup") , conf) ; 

一 








3) 在 Map 函 数 中 使 用 DistributedCache 。 














| 
public static class Map extends Mapper<Object, Text, Text, 
Text>{ 
private Path[]localArchives; 
private Path[]localFiles; 
public void setup (Context context 
) throws IOException, InterruptedException{ 
// 获 取 缓存 文件 
Configuration conf=context.getConfiguration () ; 
localArchives=DistributedCache.getLocalCacheArchives (conf) ; 
localFiles=DistributedCache.getLocalCacheFiles (conf) ; 
} 
public void map (K key, V value, 
Context context) 
throws IOException{ 


// 使 用 从 缓存 文件 中 获取 的 数据 


























Feet 
Context.collect (k, v); 
} 


4.8.3 ”链接 MapReduce Job 


在 日 常 的 数据 处 理 过 程 中 ， 常 常会 碰 到 有 些 问题 不 是 一 个 MapReduce 作 业 就 能 解决 的 ， 
这 时 就 需要 在 工作 流 中 安排 多 个 MapReduce 作 业 ， 让 它们 配合 起 来 自动 完成 一 些 复杂 任务 ， 
而 不 需要 用 户 手动 启动 每 一 个 作业 。 那 么 怎样 将 MapReduce Job 链 接 起 来 呢 ? 应 该 怎么 管理 
We? 下 面 来 介绍 如 何 链接 MapReduce Job 和 如 何 配置 MapReduce Job 流 。 





























1. 线 性 MapReduce Job 流 


MapReduce Job 也 是 一 个 程序 ， 作 为 程序 就 是 将 输入 经 过 处 理 再 输出 。 所 以 在 处 理 复杂 
问题 的 时 候 ， 如 果 一 个 Job 不 能 完成 ， 最 简单 的 办 法 就 是 设置 多 个 有 一 定 顺 序 的 Job， 每 个 Job 
以 前 一 个 Job 的 输出 作为 输入 ， 经 过 处 理 ， 将 数据 再 输出 到 下 一 个 Job 中 。 这 样 Job 流 就 能 按照 
预定 的 代码 处 理 数据 ， 达 到 预期 的 目的 。 这 种 办 法 的 具体 实现 非常 简单 : 将 每 个 Job 的 启动 代 
码 设置 成 只 有 上 一 个 Job 结 束 之 后 才 执行 ， 然 后 将 Job 的 输入 设置 成 上 一 个 Job 的 输出 路 径 。 











2. 复 杂 MapReduce Job 流 


第 一 种 方法 非常 直观 简单 ， 但 是 在 某 些 复杂 任务 下 它 仍然 不 能 满足 需求 。 一 种 情况 是 处 

理 过 程 中 数据 流 并 不 是 简单 的 线性 流 ， 如 Job3 需 要 将 Job1 和 Job2 的 输出 结果 组 合 起 来 进行 处 
理 。 在 这 种 情况 下 Job3 的 启动 依赖 于 Jop1 和 Job2 的 完成 ， 但 是 Job1 和 Job2 之 间 并 没有 关系 。 针 
对 这 种 复杂 情况 ，MapReduce 框 架 提 供 了 让 用 户 将 Job 组 织 成 复杂 Job 流 的 API 一 ControlledJob 

和 JobControl 类 (这 两 个 类 属于 org.apache.hadoop.mapreduce.lib.jobcontrol 包 ) 。 有 具体 做 法 
是 : 先 按照 正常 情况 配置 各 个 Job， 配 置 完成 后 再 将 各 个 Job 封 装 到 对 应 的 ControlledJob 对 象 
中 ， 然 后 使 用 ControlledJob 的 addDependingJob () 设置 依赖 关系 ， 接 着 再 实例 化 一 个 
JobControl 对 象 ， 并 使 用 addJob O 方法 将 所 有 的 Job 注 入 JobControl 对 象 中 ， 最 后 使 用 
JobControl 对 象 的 run 方 法 启动 Job 流 。 

























































































3.Job 设 置 预 处 理 和 后 处 理 过 程 











对 于 前 面 已 经 介绍 的 复杂 任务 的 例子 ， 使 用 前 面 的 两 种 方法 能 很 好 地 解决 。 现 在 假设 另 
一 种 情况 ， 在 Job 处 理 前 和 处 理 后 需要 做 一 些 简单 地 处 理 ， 这 种 情况 使 用 第 一 种 方法 仍 能 解 
诀 ， 但 是 如 果 针 对 这 些 简单 的 处 理 设 置 新 的 Job 来 处 理 稍 显 笨拙， 这 里 涉及 第 三 种 情况 ， 通 过 
在 Job 前 或 后 链接 Map 过 程 来 解决 预 处 理 和 后 处 理 。 比 如 ， 在 一 般 统计 词 频 的 Job 中 ， 并 不 会 
统计 那些 无 意义 的 单词 (a、an 和 the 等 ) ， 这 就 需要 在 正式 的 Job 前 链接 一 个 Map 过 程 过 滤 掉 
这 些 无 意义 的 单词 。 这 种 方法 具体 是 通过 MapReduce 中 org.apache.hadoop.mapred.lib 包 下 的 
ChainMapper 和 ChainReducer 两 个 静态 类 来 实现 的 ， 这 种 方法 最 终 形成 的 是 一 个 独立 的 Job， 
而 不 是 Job 流 ， 并 且 只 有 针对 Job 的 输入 输出 流 ， 各 个 阶段 函数 之 间 的 输入 输出 MapReduce 框 
架 会 自动 组 织 。 下 面 是 一 个 具体 的 实现 : 
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Configuration conf=new Configuration () ; 

JobConf job=new JobConf (conf) ; 

job.setJobName ("Job") ; 

job.setInputFormatClass (TextInputFormat.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat.setInputPaths (job, new Path (args[0]) ); 
FileOutputFormat.setOutputPath (job, new Path (args[1]) ); 
JobConf maplConf=new JobConf (false) ; 
ChainMapper.addMapper (job, 

Mapl.class, 

LongWritable.class, 

Text.class, 

Text.class, 

Text.class, 

true, 

map1Conf) ; 

JobConf map2Conf=new JobConf (false) ; 
ChainMapper.addMapper (job, 

Map2.class, 

Text.class, 

Text.class, 

LongWritable.class, 

Text.class, 

true, 

map2Conf) ; 

JobConf reduceConf=new JobConf (false) ; 
ChainReducer.setReducer (job, 

Reduce.class, 


LongWritable.class, 
Text.class, 

Text.class, 

Text.class, 

true, 

reduceConf) ; 

JobConf map3Conf=new JobConf (false) ; 
ChainReducer.addMapper (job, 
Map3.class, 

Text.class, 

Text.class, 
LongWritable.class, 
Text.class, 

true, 

map3Conf) ; 

JobClient.runJob (job) ; 


一 











在 这 个 例子 中 ，job 对 象 先 组 织 了 作业 全 局 的 配置 ， 接 下 来 再 使 用 ChainMapper 和 
ChainReducer 两 个 静态 类 的 静态 方法 设置 了 作业 的 各 个 阶段 函数 。 需 要 注意 的 是 ， 
ChainMapper 和 ChainReducer 到 目前 为 止 只 支持 旧 API， 即 Map 和 Reduce 必 须 是 实现 
org.apache.hadoop.mapred.Mapper 接 口 的 静态 类 (详细 的 示例 程序 请 查看 附录 D》 。 




















4.9 本 章 小 结 


在 本 童 中 





Fh， 主要 总 体 介 绍 了 开发 MapReduce 程 序 的 一 般 框架 和 一 些 优 化 方法 。 


在 本 章 一 开始 ， 笔 者 举例 说 明了 MapReduce 的 编程 。 在 单 节点 上 完成 Map 函 数 和 Reduce 
函数 ， 并 且 对 它们 进行 测试 。 待 Map 和 Reduce 都 能 够 成 功 运行 后 ， 再 在 单 节点 的 大 数据 集 进 
行 测 试 。 在 进行 程序 的 编写 和 编译 时 ， 最 好 在 集成 环境 下 进行 ， 因 为 这 样 便于 程序 的 修改 和 
调试 ， 建 议 在 Eclipse 下 进行 编程 。 























程序 可 以 在 集成 环境 中 运行 ， 也 可 以 在 命令 行 中 编译 打包 ， 然 后 在 命令 中 
结果 也 有 3 种 不 同 的 查看 方式 : 在 命令 行 
户 界 面 查看 。 








执行 。 最 终 的 


直接 查看 ， 复 制 到 本 地 文件 系统 中 查看 ;通过 Web 

















对 于 已 经 能 够 完成 功能 性 要 求 的 MapReduce 程 序 ， 还 可 以 从 多 个 方面 进行 性 能 上 的 优 
上 。 比 如 从 几 个 常见 的 方面 入 手 
据 或 Map 的 | 





变 小 文件 为 大 文件 ， 减 少 Map 的 数量 ， 压 缩 最 终 的 输出 数 
pb 间 输 出 结果 ， 在 Hadoop 安 装 路 径 下 的 conf 目 录 下 修改 属性 ， 使 能 够 同时 运行 
Map 和 Reduce 任 务 数 增多 ， 从 而 提高 性 能 





























的 
在 本 章 最 后 ， 针 对 日 常 处 理 中 的 复杂 问题 ， 为 大 家 介绍 了 MapReduce 的 一 些 高 阶 编程 
段 ， 将 这 些 方法 运用 于 具体 的 环境 中 ， 能 高 交 





改 直观 地 解决 复杂 的 MapReduce 问 题 。 




















第 5 章 ”MapReduce 应 用 案例 


a 
$ 





前 面 已 经 介绍 了 很 多 关于 MapReduce 的 基础 知识 ， 比 如 Hadoop 集 群 的 配置 方法 ， 以 及 如 
何 开发 MapReduce 应 用 程序 等 。 本 章 将 从 本 书 配套 的 云 计算 在 线 监测 平台 
Chttp: //cloudcomputing.ruc.edu.cn/) 上 的 MapReduce 编 程 题目 出 发 ， 向 大 家 介绍 如 何 挖掘 
































D| 


实际 问题 的 并 行 处 理 可 能 性 ， 以 及 如 何 设计 编写 MapReduce 程 序 。 需 要 说 明 的 是 ， 本 章 所 有 
给 出 的 代码 均 使 用 Hadoop 最 新 的 API 编 写 、 在 伪 分 布 集群 的 默认 设置 下 运行 通过 ， 其 Hadoop 
版 本 为 1.0.1，JDK 的 版 本 是 1.7。 本 章 旨 在 帮助 刚 接触 MapReduce 的 读者 入 门 。 





























5.1 单词 计数 





进入 云 计算 在 线 监测 平台 后 的 第 一 个 编程 题目 是 WordCount， 也 就 是 文本 中 的 单词 计 
数 。 如 同 Java 中 的 “Hello World" 经 典 程 序 一 样 ，WordCount 是 MapReduce 的 入 门 程序 。 虽 然 
此 例 在 本 书 中 的 其 他 章节 也 有 涉及 ， 但 是 本 章 主要 从 如 何 挖掘 此 问题 中 的 并 行 处 理 可 能 性 角 
度 出 发 ， 让 读者 了 解 设计 MapReduce 程 序 的 过 程 。 




















5.1.1 实例 描述 


计算 出 文件 中 每 个 单词 的 频数 。 要 求 输出 结果 按照 单词 的 字母 顺序 进行 排序 。 每 个 单词 
其 频数 占 一 行 ， 单 词 和 频数 之 间 有 间隔 。 











a 








Al 





比如 ， 输 入 一 个 文件 ， 其 内 容 如 下 ; 


一 
hello world 
hello hadoop 
hello mapreduce 


Eee 
对 应 上 面 给 出 的 输入 样 例 ， 其 输出 样 例 为 : 


=== = 
hadoop 1 
hello 3 
mapreduce 1 
world 1 
一 





5.1.2 设计 思路 











这 个 应 
聚集 在 一 起 ， 
决 方案 中 的 
输入 数据 切 分 成 单词 就 可 
频数 计算 也 可 以 并 行 化 处 理 。 




















同 的 单词 交 给 一 台 机 器 来 计算 频数 
单词 
shuffle 能 够 完成 的 。 至 此 ， 这 








P 间 结果 根据 不 同 


数据 到 单词 切 分 的 工作 ，shu 


实例 的 解决 方案 很 直 
最 后 计算 单词 出 现 的 次 数 并 输出 。 根 
容 切 分 步骤 和 数据 不 
TAT. Fi 


Be, ERNE 


目 关 ， 可 以 并 行 
以 可 以 在 Map 阶 
例 要 求 来 看 ， 不 
， 然 后 输出 最 终结 果 。 这 个 
再 分 发 给 Reduce 机 器 ， 这 4 


股 完成 单词 








由 实 








分 组 


个 实 





ffle 阶 











MapReduce 








MapReduce 中 传递 的 数据 者 


的 默认 过 程 ， 不 用 
hb 是 二 key, value >É, JF 


shuffle 








值 进行 的 ， 因 此 将 Map 的 输出 
现 了 一 次 (Map 的 输入 采用 














key) 。Reduce 的 输入 为 Map 输 


<word, {1, 1, 1, 1 


数字 不 再 固定 是 1， 而 是 具体 算 


码 。 


Hadoop 默 认 的 输入 方式 : 文 


设计 成 由 word 作 为 key、1 作 为 value 
件 的 一 行 





内 容 切 分 成 单词 ， 然 后 将 所 有 相 
据 MapReduce 并 行程 序 设计 
化 处 理 ， 每 个 获得 原始 数据 的 机 
切 分 任务 。 另 多 
同 单词 之 间 的 频数 不 相关 ， 
过 程 可 以 在 Re 
E 好 是 MapReduc 
例 的 MapReduce 程 序 就 设计 出 来 了 。Map 阶 
股 完成 相同 单词 的 聚集 和 分 发 了 
有 具体 配置 ) ，Reduce 阶 段 负责 接收 所 有 单词 并 计算 








的 单词 
[ 知 ， 解 
器 只 要 将 
， 相 同 单词 的 
所 以 可 以 将 相 
uce 阶 段 完成 。 
的 

段 完成 由 输入 
[ 作 〈 这 个 过 程 是 

其 频数 。 


i 


可 


原则 








[Fi] 





e 过 程 中 





TEP RS 
的 形式 ， 这 表示 单词 word 出 
作为 value， 行 号 作为 

















HRA 


Reduce 的 输 


起 后 的 结果 ， 即 一 key, value- 
会 设计 成 与 Map 输 








u 
过 


ist> ， 具 体 到 这 个 实例 就 是 
出 相同 的 形式 ， 只 是 后 面 的 


的 word 所 对 应 的 频数 。 下 面 给 出 笔者 实验 的 WordCount 代 


5.1.3 程序 代码 


WordCount 代 码 如 下 : 


三 一 
package cn.edu.ruc.cloudcomputing.book.chapter05; 
import java.io.IOException; 
import java.util.StringTokenizer; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce. Job; 
import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapreduce. Reducer; 
import 

org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import 

org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 
public class WordCount { 
// 继 承 Mapper 接 口 ， 设 置 map 的 输入 类 型 为 <object， Text> 
// 输 出 类 型 为 <Text， IntWritable> 
public static class TokenizerMapper 
extends Mapper<Object, Text, Text, IntWritable>{ 
//one 表 示 单 词 出 现 一 次 
private final static IntWritable one=new IntWritable (1); 
//word 用 于 存储 切 下 的 单词 
private Text word=new Text () ; 
public void map (Object key, Text value, Context context) 
throws IOException, 
InterruptedException{ 
StringTokenizer itr=new 

StringTokenizer (value.toString © ) ; // 对 输入 的 行 切 词 
while (itr.hasMoreTokens () ) { 
word.set (itr.nextToken () ) ; // 切 下 的 单词 存 入 word 
context .write (word, one) ; 

} 

} 

} 

// 继 承 Reducez 接 口 ， 设 置 Reduce 的 输入 类 型 为 <Text， IntWritable> 

// 输 出 类 型 为 <Text， IntWritable> 

public static class IntSumReducer extends Reducer<Text, 
IntWritable, Text, IntWritable>{ 

//result 记 录 单 词 的 频数 




















private IntWritable result=new IntWritable O) ; 

public void reduce (Text key, Iterable<IntWritable>values, 
Context context) 

throws IOException, InterruptedException{ 

int sum=0; 

// 对 获取 的 <key，value-1list> 计 算 value 的 和 

for (IntWritable val: values) { 

sumt=val.get O ; 


} 
// 将 频数 设置 到 resultd 
result.set (sum) ; 
// 收 集结 
context.write (key, result) ; 
} 
} 
public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration () ; 
// 检 查 运 行 命令 
String[]otherArgs=new GenericOptionsParser (conf, 

args) .getRemainingArgs () ; 
if (otherArgs.length! =2) { 
System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2); 


} 
// 配 置 作业 名 
Job job=new Job (conf, "word count") ; 
// 配 置 作业 的 各 个 类 
job.setJarByClass (WordCount.class) ; 
job.setMapperClass (TokenizerMapper.class) ; 
job.setCombinerClass (IntSumReducer.class) ; 
job.setReducerClass (IntSumReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new 

Path (otherArgs[1])); 
System.exit (job.waitForCompletion (true) ?0: 1); 
} 
} 


二 一 


H 




















5.1.4 代码 解读 


WordCount 程 序 在 Map 阶 段 接收 输入 的 <ley, value> (ley 是 当前 输入 的 行 号 ，value 是 对 
应 行 的 内 容 ) ， 然 后 对 此 行内 容 进 行 切 词 ， 每 切 下 一 个 词 就 将 其 组 织 成 <word，1> 的 形式 
输出 ， 表 示 word 出 现 了 一 次 。 








在 Reduce 阶 段 ，TaskTracler 会 接收 到 二 word，{1，1，1，1.... }> 形 式 的 数据 ， 也 就 是 
特定 单词 及 其 出 现 次 数 的 情况 ， 其 中 “1 表示 word 的 频数 。 所 以 Reduce 每 接受 一 个 <word， 
lh ED }>， 就 会 在 word 的 频数 上 加 1， 最 后 组 织 成 <word, sum > 的 形式 直接 输 











5.1.5 ”程序 执行 


运行 条 件 : 将 WordCountjava 文 件 放 在 Hadoop 安 装 目录 下 ， 并 在 目录 下 创建 输入 目录 
input， 目 录 下 有 输入 文件 fle1、file2。 其 中 : 





file1 的 内 容 是 : 


二 一 
hello world 


| | 
file2 的 内 容 是 : 


[| 
hello hadoop 
hello mapreduce 


= | 


准备 好 之 后 在 命令 行 输入 命令 运行 。 下 面 对 执行 的 命令 进行 介绍 。 


1) 在 集群 上 创建 输入 文件 夹 : 


二 一 
bin/hadoop fs-mkdir wordcount input 
ee | 





2) 上 传 本 地 目录 input 下 前 四 个 字符 为 file 的 文件 到 集群 上 的 input 目 录 下 : 











NNT 
bin/hadoop fs-put input/file*wordcount_input 
—_—_—_—_—_—_—_—_—_—_—_—_—_—_—_—_—_—_———————————— oO 


3) 编译 WordCountjava 程 序 ， 将 结果 放 入 当前 目录 的 WordCount 目 录 下 : 
(i 


javac-classpath hadoop-1.0.1-core.jar: lib/commons-cli- 
1.2.jar-d WordCount WordCount.java 


i 
4) 将 编译 结果 打 成 Jar 包 : 


TTT | 


jar-cvf wordcount.jar-C WordCount. 
一 





5) 在 集群 上 运行 WordCount 程 序 ， 以 input 目 录 作 为 输入 目录 ，output 目 录 作 为 输出 目 
XK: 
M 


bin/hadoop jar wordcount.jar WordCount wordcount_input 
wordcount_output 


aM 
6) 查看 输出 结果 : 


ee | 
bin/hadoop fs-cat wordcount output/part-r-00000 


ee | 


5.1.6 ”代码 结果 


运行 结果 如 下 : 


一 
hadoop 1 
hello 3 
mapreduce 1 
world 1 


二 一 


5.1.7 ”代码 数据 流 


WordCount 程 序 是 最 简单 也 是 最 具 代表 性 的 MapReduce 框 架 程序 ， 下 面 再 基于 上 例 给 出 
MapReduce 程 序 执 行 过 程 中 详细 的 数据 流 。 








首先 在 MapReduce 程 序 启 动 阶段 ，JobTraclker 先 将 Job 的 输入 文件 分 割 到 每 个 Map Task 
上 。 假 设 现在 有 两 个 Map Task， 一 个 Map Task 一 个 文件 。 


接 下 来 MapReduce 启 动 Job， 每 个 Map Task 在 启动 之 后 会 接收 到 自己 所 分 配 的 输入 数据 ， 
针对 此 例 〈 采 用 默认 的 输入 方式 ， 每 一 次 读 入 一 行 ，key 为 行 首 在 文件 中 的 偏 移 量 ，value 为 
行 字符 串 内 容 ) ， 两 个 Map Task 的 输入 数据 如 下 ， 


























====== 3 
<0, "hello world"> 
<0, "hello hadoop"> 
<14, "hello mapreduce"> 


mm 





Map 函 数 会 对 输入 内 容 进行 词 分 割 ， 然 后 输出 每 个 单词 和 其 频次 。 第 一 个 Map Task 的 
Map 输 出 如 下 : 


二 一 
<"hello", 1> 
<"world", 1> 


lee 
第 二 个 Map Task 的 Map 输 出 如 下 : 


TTT | 
<"hello", 1> 
<"hadoop", 1> 
<"hello", 1> 
<"mapreduce", 1> 


二 一 


由 于 在 本 例 中 设置 了 Combiner 的 类 为 Reduce 的 class， 所 以 每 个 Map Task 将 输出 发 送 到 
Reduce 时 ， 会 先 执行 一 次 Combiner。 这 里 的 Combiner 相 当 于 将 结果 先 局 部 进行 合并 ， 这 样 能 





够 降低 网 络 压力 ， 提 高 效率 。 执 行 Combiner 之 后 两 个 Map Task 的 输出 如 下 : 


[= | 

Map Taski 

<"hello", 1> 

<"world", 1> 

Map Task2 

<"hello", 2> 

<"hadoop", 1> 

<"mapreduce", 1> 


一 

接 下 来 是 MapReduce 的 shuffle 过 程 ， 对 Map 的 输出 进行 排序 合并 ， 并 根据 Reduce 数 量 对 
Map 的 输出 进行 分 割 ， 将 结果 交 给 对 应 的 Reduce。 经 过 shuffle 过 程 的 输出 也 就 是 Reduce 的 输 
入 如 下 : 








二 
<"hadoop", 1> 
<"hello", <1, 2>> 
<"mapreduce", 1> 
<"world", 1> 


和 
Reduce 接 收 到 如 上 的 输入 之 后 ， 对 每 个 <key, value-list> 进 行 处 理 ， 计 算 每 个 单词 也 就 
是 key 的 出 现 总 数 。 最 后 输出 单词 和 对 应 的 频数 ， 形 成 整个 MapReduce 的 输出 ， 内 容 如 下 : 





本 
<"hadoop", 1> 
<"hello", 3> 
<"mapreduce", 1> 
<"world", 1> 


5 


WordCount 虽 然 简单 ， 但 具有 代表 性 ， 也 在 一 定 程度 上 反映 了 MapReduce 设 计 的 初衷 一 
对 日 志文 件 的 分 析 。 和 希望 这 里 的 详细 分 析 能 对 大 家 有 所 帮助 。 


5.2 ”数据 去 


由 
buy 











数据 去 重 这 个 实例 主要 是 为 了 让 读者 掌握 并 利用 并 行 化 思想 对 数据 进行 有 意义 的 筛选 。 
统计 大 数据 集 上 的 数据 种 类 个 数 、 从 网 站 日 志 中 计算 访问 地 等 这 些 看 似 庞杂 的 任务 都 会 涉及 
数据 去 重 。 下 面 就 进入 这 个 实例 的 MapReduce 程 序 设计 。 


























ih 





5.2.1 ”实例 描述 





此 


对 数据 文件 中 的 数据 进行 去 





。 数 据 文件 中 的 每 行 都 是 一 个 数据 。 





样 例 输入 : 


[ee | 
filel: 
2006-6-9 a 
2006-6-10 
2006-6-11 
2006-6-12 
2006-6-13 
2006-6-14 
2006-6-15 
2006-6-11 
file2: 
2006-6-9 b 
2006-6-10 
2006-6-11 
2006-6-12 
2006-6-13 
2006-6-14 
2006-6-15 
2006-6-11 
样 例 输出 : 
2006-6-10 
2006-6-10 
2006-6-11 
2006-6-11 
2006-6-12 
2006-6-13 
2006-6-14 
2006-6-14 
2006-6-15 


naaawa qayvpaaans 


qaveraatye 


2006-6-15 d 
2006-6-9 a 
2006-6-9 b 


—_—_—_—_—_—_—_—_COCOOOO—“—°€;OWwOoOoaoooooooo | 


5.2.2 ”设计 思路 


RUE ES 
一 次 。 我 们 自然 





出 现 多 少 次 ， 


key， 而 对 value-list 则 没有 要 求 。 当 Reduce 接 收 到 一 个 二 key, value-list> IN 
， 并 将 value 设 置 成 空 值 。 在 MapReduce 流 程 
过 shuffle 过 程 聚 集成 二 key, value-list> 后 会 被 交 给 Reduce。 
反 推 出 Map 输 出 的 key 应 为 数据 ， 而 value 为 任意 值 。 继 续 反 推 ，Map 输 出 
这 个 实例 中 每 个 数据 代表 输入 文件 中 
Hadoop 默 认 的 作业 输入 方式 之 后 ， 将 value 设 置 成 key ， 并 直接 输出 〈 输 
shuffle 过 程 之 后 被 交 给 Reduce。 
value， 都 直接 将 输入 的 ley 复制 为 输出 的 key ， 并 输出 就 可 " 


到 输出 的 key 中 











Map 中 的 结果 经 过 


Za 


因为 此 程序 简单 且 执 行 步骤 与 单词 计数 实例 完 


序 。 


目标 是 让 原始 数据 
银 到 将 同一 个 数据 的 所 有 记录 都 交 给 一 
FP 输出 一 次 就 可 以 了 。 具 体 就 是 Reduce 的 输入 应 该 以 数据 作为 
就 直接 将 Jey 复制 
MH <key, value >% 
的 Reduce 输 入 可 以 
key 为 数据 。 而 在 
完成 的 任务 就 是 在 采 
8 中 的 value 任 意 ) 。 




















P 的 一 行内 容 ， 所 以 Map 阶 


略 过 一 次 的 数据 在 输出 文件 中 只 出 现 
机 器 ， 无 论 这 个 数据 






































在 Reduce 阶 段 不 管 每 个 egy 有 多 少 个 
的 value 被 设置 成 


同 ， 所 以 不 再 费 述 ， 下 面 只 给 出 程 


5.2.3 ”程序 代码 


程序 代码 如 下 : 
======3==3========== 汪 = 


package cn.edu.ruc.cloudcomputing.book.chapter05; 

import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import 
org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

import 
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 

import org.apache.hadoop.util.GenericOptionsParser; 

public class Dedup{ 

//map 将 输入 中 的 value 复 制 到 输出 数据 的 key 上 ， 并 直接 输出 

public static class Map extends Mapper<Object, Text, Text, 
Text>{ 

private static Text line=new Text (); 

public void map (Object key, Text value, Context context) 
throws IOException, 

InterruptedException{ 

line=value; 

context.write (line, new Text ("") ); 

} 


} 

//reduce 将 输入 中 的 key 复 制 到 输出 数据 的 key 上 ， 并 直接 输出 

public static class Reduce extends Reducer<Text, Text, Text, 
Text>{ 

public void reduce (Text key, Iterable<Text>values, Context 
context) throws 

IOException, InterruptedException{ 

context.write (key, new Text ("") ); 

} 

} 

public static void main (String[]args) throws Exception{ 

Configuration conf=new Configuration O ; 

String[]otherArgs=new GenericOptionsParser (conf, 
args) .getRemainingArgs () ; 

if (otherArgs.length! =2) { 














System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2); 
} 
Job job=new Job (conf, "Data Deduplication"™) ; 
job.setJarByClass (Dedup.class) ; 
job.setMapperClass (Map.class) ; 
job.setCombinerClass (Reduce.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new 

Path (otherArgs[1])); 
System.exit (job.waitForCompletion (true) ?0: 1); 
} 
} 


| | 


5.3 排序 


数据 排序 是 许多 实际 任务 在 执行 时 要 完成 的 第 一 项 工作 ， 比 如 学 生成 绩 评比 、 数 据 建立 
索引 等 。 这 个 实例 和 数据 去 重 类 似 ， 都 是 先 对 原始 数据 进行 初步 处 理 ， 为 进一步 的 数据 操作 
打 好 基础 。 下 面 进入 这 个 实例 。 




















5.3.1 实例 描述 


对 输入 文件 中 的 数据 进行 排序 。 输 入 文件 中 的 每 行内 容 均 为 一 个 数字 ， 即 一 个 数据 。 要 
求 在 输出 中 每 行 有 两 个 间隔 的 数字 ， 其 中 ， 第 二 个 数字 代表 原始 数据 ， 第 一 个 数字 代表 这 个 
原始 数据 在 原始 数据 集中 的 位 次 。 























样 例 输入 : 


5.3.2 ”设计 思路 


这 个 实例 仅仅 要 求 对 输入 数据 进行 排序 ， 熟 悉 MapReduce 过 程 的 读者 很 快 会 想到 在 
MapReduce 过 程 中 就 有 排序 。 是 否 可 以 利用 这 个 默认 的 排序 、 而 不 需要 自己 再 实现 具体 的 排 





序 呢 ? 答案 是 肯定 的 。 


按照 ley 值 进行 排序 ， 





























key 排 序 ， 如 果 key 为 封装 String 的 Text 类 型 ， 那 么 MapReduce 按 照 字典 顺序 对 


要 注意 的 是 ，Reduce 自 动 排序 
不 能 保证 全 局 的 顺序 ， 因 为 在 排序 前 还 

















但 是 在 使 用 之 前 首先 要 了 解 MapReduce 过 程 中 的 默认 排序 规则 。 它 是 
如 果 ley 为 封装 int 的 IntWritable 类 型 ， 那 么 MapReduce 


按照 数字 大 小 对 


对 字符 串 排序 。 需 
的 数据 仅仅 是 发 送 到 自己 所 在 节点 的 数据 ， 使 用 默认 的 排序 并 
还 有 一 个 partition 的 过 程 ， 默 认 无 法 保证 分 割 后 各 个 














Reduce 上 的 数据 整体 是 有 序 的 。 所 有 要 想 使 用 默认 的 排序 过 程 ， 还 必须 定义 自己 的 Partition 
类 ， 保 证 执行 Partition 过 程 之 后 所 有 Reduce 上 的 数据 在 整体 上 是 有 序 的 ， 然 后 再 对 局 部 





Reduce 上 的 数据 进行 默认 排序 ， 这 样 才能 保证 所 有 数据 有 序 。 了 解 了 这 个 引 























节 ， 我 们 就 知 


道 ， 首 先 应 该 使 用 封装 int 的 IntWritable 型 数据 结构 ， 也 就 是 将 读 入 的 数据 在 Map 中 转化 成 
IntWritable 型 ， 然 后 作为 key 值 输出 (value 任 意 ) ; 其 次 需要 重 写 partition 类 ， 保 证 整体 有 
序 ， 具 体 做 法 是 用 输入 数据 的 最 大 值 除 以 系统 partition 数 量 的 商 作为 分 割 数据 的 边界 增 量 ， 也 
就 是 说 分 割 数据 的 边界 为 此 商 的 1 倍 、2 倍 至 numPartitions-1 倍 ， 这 样 就 能 保证 执行 partition 后 
然后 Reduce 获 得 二 key, value-list> 之 后 ， 根 据 value-list 中 元 素 的 个 数 
将 输入 的 ley 作为 value 的 输出 次 数 ， 输 出 的 key 是 一 个 全 局 变量 ， 用 于 统计 当 























的 数据 是 整体 有 序 的 ; 





需要 注意 的 是 ， 这 个 程序 中 没有 配置 Combiner， 也 就 是 说 在 MapReduce 过 程 中 不 使 
Combiner。 这 主要 是 



























































因为 使 用 Map 和 Reduce 就 已 经 能 够 完成 任务 了 。 





由 于 此 程序 简单 
序 。 








且 执 行 步骤 与 单词 计数 实例 完全 相同 ， 所 以 不 再 更 述 ， 


前 key 的 位 次 。 




















下 面 只 给 出 程 


5.3.3 ”程序 代码 


程序 代码 如 下 : 
= 


package cn.edu.ruc.cloudcomputing.book.chapter05; 

import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path 

import org.apache.hadoop.io.IntWritable 

import org.apache.hadoop.io.Text 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import 
org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

import 
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 

import org.apache.hadoop.util.GenericOptionsParser; 

import org.apache.hadoop.mapreduce.Partitioner; 

public class Sort{ 

/ /map 将 输入 中 的 value 转 化 成 Intwritable 类 型 ， 作 为 输出 的 key 

public static class Map extends Mapper<Object, Text, 
IntWritable, IntWritable>{ 

private static IntWritable data=new IntWritable () ; 

public void map (Object key, Text value, Context context) 
throws IOException, 

InterruptedException{ 

String line=value.toString O ; 

data.set (Integer.parseInt (line) ); 

context.write (data, new IntWritable (1) ); 

} 


} 

//reduce 将 输入 的 key 复 制 到 输出 的 value 上 ， 然 后 根据 输入 的 

//value-1ist 中 元 素 的 个 数 决 定 key 的 输出 次 数 

// 用 全 局 1inenum 来 代表 key 的 位 次 

public static class Reduce extends Reducer<IntWritable, 
IntWritable, IntWritable 

IntWritable>{ 

private static IntWritable linenum=new IntWritable (1); 

public void reduce (IntWritable key, Iterable<IntWritable> 
values, Context 

context) throws IOException, InterruptedException{ 

for (IntWritable val: values) { 

context.write (linenum, key) ; 


























linenum=new IntWritable (linenum.get () +1); 
} 
} 


} 
// 自 定义 Partition 函 数 ， 此 函数 根据 输入 数据 的 最 大 值 和 MapReduce 框 架 中 
//Partition 的 数量 获取 将 输入 数据 按照 大 小 分 块 的 边界 ， 然 后 根据 输入 数值 和 
/ /边界 的 关系 返回 对 应 的 Partition ID 
public static class Partition extends Partitioner< 
IntWritable, IntWritable>{ 
@Override 
public int getPartition (IntWritable key, IntWritable value, 
int 
numPartitions) { 
int Maxnumber=65223; 
int bound=Maxnumber/numPartitions+l; 
int keynumber=key.get ©) ; 
for (int i=0; i<numPartitions; i++) { 
if (keynumber<bound*i& &keynumber>=bound* (i-1) ) 
return i-1; 
} 
return-1; 
} 
} 
public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration O) ; 
String[]otherArgs=new GenericOptionsParser (conf, 
args) .getRemainingArgs () ; 
if (otherArgs.length! =2) { 
System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2); 
} 
Job job=new Job (conf, "Sort") ; 
job.setJarByClass (Sort.class) ; 
job.setMapperClass (Map.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setPartitionerClass (Partition.class) ; 
job.setOutputKeyClass (IntWritable.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new 
Path (otherArgs[1]) ); 
System.exit (job.waitForCompletion (true) ?0: 1); 
} 
} 


| | 





5.4 单 表 关联 


前 面 的 实例 都 是 在 数据 上 进行 一 些 简单 的 处 理 ， 为 进一步 的 操作 打 基 础 。 单 表 关 联 这 个 
实例 要 求 从 给 出 的 数据 中 寻找 出 所 关心 的 数据 ， 它 是 对 原始 数据 所 包含 信息 的 挖掘 。 下 面 进 
入 这 个 实例 。 





5.4.1 实例 描述 


实例 中 给 出 child-parent 表 ， 要 求 输出 grandchild-grandparent 表 。 





样 例 的 输入 : 


一 
file: 
child parent 
Tom Lucy 
Tom Jack 
Jone Lucy 
Jone Jack 
Lucy Mary 
Lucy Ben 
Jack Alice 
Jack Jesse 
Terry Alice 
Terry Jesse 
Philip Terry 
Philip Alma 
Mark Terry 
Mark Alma 


eee 
样 例 输出 为 : 


一 
file: 
grandchild grandparent 
Tom Alice 
Tom Jesse 
Jone Alice 
Jone Jesse 
Tom Mary 


Tom Ben 

Jone Mary 
Jone Ben 
Philip Alice 
Philip Jesse 
Mark Alice 
Mark Jesse 


5 


5.4.2 ”设计 思路 


分 析 这 个 实例 ， 显 然 需要 进行 单 表 连 接 ， 连 接 的 是 左 表 的 parent 列 和 右 表 的 child 列 ， 且 
左 表 和 右 表 是 同一 个 表 。 连 接 结果 中 除去 连接 的 两 列 就 是 所 需要 的 结果 一 grandchild- 
grandparent 表 。 要 用 MapReduce 实 现 这 个 实例 ， 首 先 要 考虑 如 何 实现 表 的 自 连接 ， 其 次 就 是 
连接 列 的 设置 ， 最 后 是 结果 的 整理 。 考 虑 到 MapReduce 的 shuffle 过 程 会 将 相同 的 key 值 放 在 一 
起 ， 所 以 可 以 将 Map 结 果 的 key 值 设置 成 待 连接 的 列 ， 然 后 列 中 相同 的 值 自然 就 会 连接 在 一 起 
了 。 再 与 最 开始 的 分 析 联 系 起 来 :要 连接 的 是 左 表 的 parent 列 和 右 表 的 child 列 ， 且 左 表 和 右 
表 是 同一 个 表 ， 所 以 在 Map 阶 段 将 读 入 数据 分 割 成 child 和 parent 之 后 ， 会 将 parent 设 置 为 ey， 
child 设 置 为 value 进 行 输出 ， 作 为 左 表 ， 再 将 同一 对 child 和 parent 中 的 child 设 置 成 key, parent 设 
置 成 value 进 行 输出 ， 作 为 右 表 。 为 了 区 分 输出 中 的 左右 表 ， 需 要 在 输出 的 value 中 再 加 上 左 
右 表 信 息 ， 比 如 在 value 的 String 最 开始 处 加 上 字符 1 表示 左 表 、 字 符 2 表示 右 表 。 这 样 在 Map 
的 结果 中 就 形成 了 左 表 和 右 表 ， 然 后 在 shuffle 过 程 中 完成 连接 。 在 Reduce 接 收 到 的 连接 结果 
中 ， 每 个 key 的 value-list 就 包含 了 grandchild 和 grandparent 关 系 。 取 出 每 个 key 的 value-list 进 行 
解析 ， 将 左 表 中 的 child 放 入 一 个 数组 ， 右 表 中 的 parent 放 入 一 个 数组 ， 然 后 对 两 个 数组 求 笛 
卡 儿 积 就 是 最 后 的 结果 了 。 
















































































在 设计 思路 中 已 经 包含 了 对 程序 的 分 析 ， 而 其 程序 执行 步骤 也 与 单词 计数 实例 完全 相 
同 ， 所 以 代码 解读 和 程序 执行 不 再 费 述 ， 下 面 只 给 出 程序 。 


5.4.3 ”程序 代码 


程序 代码 如 下 : 
=3=====333========== = 


package cn.edu.ruc.cloudcomputing.book.chapter05; 

import java.io.IOException; 

import java.util.*; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import 
org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

import 
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 

import org.apache.hadoop.util.GenericOptionsParser; 

public class STjoin{ 

public static int time=0; 

//Map 将 输入 分 割 成 child 和 parent， 然 后 正 序 输出 一 次 作为 右 表 ， 反 序 输 出 一 次 作 
为 左 表 ， 需 要 注意 

的 是 在 输出 的 value 中 必须 加 上 左右 表 区 别 标志 

public static class Map extends Mapper<Object, Text, Text, 
Text>{ 

public void map (Object key, Text value, Context context) 
throws 

IOException, InterruptedException{ 

String childname=new String () ; 

String parentname=new String O; 

String relationtype=new String 0; 

String line=value.toString O ; 

int i=0; 

while (line.charAt (i) ! =t") { 

itt; 

} 

String[]values={line.substring (0, i), line.substring (i+1) }; 

if (values[0].compareTo ("child") ! =0) 

{ 

childname=values [0]; 

parentname=values([1]; 

relationtype="1"; // 左 右 表 区 分 标志 

Context .write (new Text (values[1]) new Text (relationtype 














+"+"+childname+"+"+parentname) ) ; 

// 左 表 

relationtype="2"; 

context.write (new Text (values[0]) new Text (relationtype 

+"+"+childname+"+"+parentname) ) ; 

// 右 表 

} 

} 

} 

public static class Reduce extends Reducer<Text, Text, Text, 
Text>{ 

public void reduce (Text key, Iterable<Text>values, Context 
context) throws 

IOException, InterruptedException{ 

if (time==0) {// 输 出 表 头 

context .write (new Text ("grandchild") , new 
Text ("grandparent") ) ; 

time++; 

} 

int grandchildnum=0; 

String grandchild[]=new String[10]; 

int grandparentnum=0; 

String grandparent[]=new String[10]; 

Iterator ite=values.iterator () ; 

while (ite.hasNext © ) 

{ 

String record=ite.next () .toString O) ; 

int len=record.length O ; 

int i=2; 

if (len==0) continue; 

char relationtype=record.charAt (0) ; 

String childname=new String ©; 

String parentname=new String O; 

// 获 取 value-1list 中 value 的 child 

while (record.charAt (i) ! ='+') 

{ 

childname=childname+record.charAt (i) ; 

i++; 

} 

i=i+1; 

// 获 取 value-1list 中 value 的 parent 

while (i<len) 

{ 

parentname=parentname+record.charAt (i); 

i++; 











} 
// 左 表 ， 取 出 child 放 入 grandchild 


if (relationtype=='1') { 
grandchild[grandchildnum]=childname; 
grandchildnum++; 
} 
else{// 右 表 ， 取 出 parent 放 入 grandparent 
grandparent [grandparentnum] =parentname; 
grandparentnumtt+; 
} 
} 
//grandchild 和 grandparent 数 组 求 笛 卡 儿 积 
if (grandparentnum! =0&&grandchildnum! =0) { 
for (int m=0; m<grandchildnum; m++) { 
for (int n=0; n<grandparentnum; n++) { 
context.write (new Text (grandchild[m]) , new 
Text (grandparent[n]) ); 
// 输 出 结果 
} 
} 
} 
} 
} 
public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration O) ; 
String[]otherArgs=new GenericOptionsParser (conf, 
args) .getRemainingArgs () ; 
if (otherArgs.length! =2) { 
System.err.printlin ("Usage: wordcount<in><out>") ; 
System.exit (2); 
} 
Job job=new Job (conf, "single table join"); 
job.setJarByClass (STjoin.class) ; 
job.setMapperClass (Map.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new 
Path (otherArgs[1])); 
System.exit (job.waitForCompletion (true) ?0: 1); 
} 
} 


[ee | 





5.5 BRAK 


5.5.1 ”实例 描述 





多 表 关 联 和 单 表 关联 类 似 ， 它 也 是 通过 对 原始 数据 进行 一 定 的 处 理 ， 从 其 中 挖掘 出 关心 
的 信息 。 下 面 进入 这 个 实例 。 














输入 是 两 个 文件 ， 一 个 代表 工厂 表 ， 包 含 工厂 名 列 和 地 址 编号 列 ， 另 一 个 代表 地 址 表 ， 
包含 地 址 名 列 和 地 址 编号 列 。 要 求 从 输入 数据 中 找 出 工厂 名 和 地 址 名 的 对 应 关系 ， 输 出 工厂 
名 -地 址 名 表 。 











样 例 输入 : 


二 一 
factory: 
factoryname addressed 
Beijing Red Star 1 
Shenzhen Thunder 3 
Guangzhou Honda 2 
Beijing Rising 1 
Guangzhou Development Bank 2 
Tencent 3 
Bank of Beijing 1 
address: 
addressID addressname 
1 Beijing 
2 Guangzhou 
3 Shenzhen 
4 Xian 
样 例 输出 : 
factoryname addressname 
Bank of Beijing Beijing 
Beijing Red Star Beijing 
Beijing Rising Beijing 
Guangzhou Development Bank Guangzhou 
Guangzhou Honda Guangzhou 
Shenzhen Thunder Shenzhen 
Tencent Shenzhen 


ee | 


5.5.2 ”设计 思路 


多 表 关 联 和 单 表 关 联 相似 ， 都 类 似 于 数据 库 中 的 自然 连接 。 相 比 单 表 关联 ， 多 表 关 联 的 
左右 表 和 连接 列 更 加 清楚 ， 因 此 可 以 采用 和 单 表 关 联 相同 的 处 理 方式 。Map 识 别 出 输 入 的 行 
属于 哪个 表 之 后 ， 对 其 进行 分 割 ， 将 连接 的 列 值 保存 在 key 中， 另 一 列 和 左右 表 标 志保 存在 
value 中 ， 然 后 输出 。Reduce 拿 到 连接 结果 后 ， 解 析 value 内 容 ， 根 据 标 志 将 左右 表 内 容 分 开 
存放 ， 然 后 求 笛 卡 儿 积 ， 最 后 直接 输出 。 












































这 个 实例 的 具体 分 析 参 考 单 表 关联 实例 ， 下 面 给 出 代码 。 


5.5.3 ”程序 代码 


程序 代码 如 下 : 
二 == 


package cn.edu.ruc.cloudcomputing.book.chapter05; 

import java.io.IOException; 

import java.util.*; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce. Reducer; 

import 
org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

import 
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 

import org.apache.hadoop.util.GenericOptionsParser; 

public class MTjoin{ 

public static int time=0; 

public static class Map extends Mapper<Object, Text, Text, 
Text>{ 

// 在 Map 中 先 区 分 输入 行 属 于 左 表 还 是 右 表 ， 然 后 对 两 列 值 进行 分 割 ， 

// 连 接 列 保存 在 key 值 ， 剩 余 列 和 左右 表 标 志保 存在 value 中 ， 最 后 输出 

public void map (Object key, Text value, Context context) 
throws 

IOException, InterruptedException{ 

String line=value.toString O ; 

int i=0; 

// 输 入 文件 首 行 ， 不 处 理 

if (line.contains ("factoryname") 
==true||line.contains ("addressID") ==true) { 

return; 


} 

// 找 出 数据 中 的 分 割 点 

while (line.charAt (i) >='9'||line.charAt (i) <='0"') { 

itt; 

} 

if (line.charAt (0) >='9'||line.charAt (0) <='0"') { 

// 左 表 

int j=i-1; 

while (line.charAt (j) ! ='"') j--; 
String[]values={line.substring (0, 3), line.substring (i) }; 














context .write (new Text (values[1]), new 
Text ("1+"+values[0]) ); 

} 

else{// AR 

int j=i+l; 

while (line.charAt (j) ! ='"') j++; 

String[]values={line.substring (0, i+1) , line.substring (j) }; 

context.write (new Text (values[0]), new 
Text ("2+"+values[1]) ) ; 

} 

} 

} 

public static class Reduce extends Reducer<Text, Text, Text, 
Text>{ 
ge oor nate 将 value 中 数据 按照 左右 表 分 别 保存 ， 然 后 求 // 笛 卡 儿 积 ， 
ial 

public void reduce (Text key, Iterable<Text>values, Context 
context) throws 

IOException, InterruptedException{ 

if (time==0) {// 输 出 文件 第 一 行 

context.write (new Text ("factoryname") , new 
Text ("addressname") ) ; 

time++; 

} 

int factorynum=0; 

String factory[]=new String[10]; 

int addressnum=0; 

String address[]=new String[10]; 

Iterator ite=values.iterator © ; 

while (ite.hasNext () ) 

{ 

String record=ite.next () .toString O ; 

int len=record.length O ; 

int i=2; 

char type=record.charAt (0) ; 

String factoryname=new String O ; 

String addressname=new String () ; 

if (type=='1') {// EK 

factory[factorynum]=record. substring (2) ; 

factorynumt+; 

} 

else{// AR 

address [addressnum]=record. substring (2) ; 

addressnum++; 

} 

} 

if (factorynum! =0&&addressnum! =0) {// 求 笛 卡 儿 积 





for (int m=0; m<factorynum; m++) { 
for (int n=0; n<addressnum; n++) { 
contextwrite(newText(factorylim),ne 


Text (address[n]) ); 


} 
public static void main (String[]args) throws Exception{ 
Configuration conf=new Configuration O) ; 
String[]otherArgs=new GenericOptionsParser (conf, 
args) .getRemainingArgs () ; 
if (otherArgs.length! =2) { 
System.err.println ("Usage: wordcount<in><out>") ; 
System.exit (2); 
} 
Job job=new Job (conf, "multiple table join"); 
job.setJarByClass (MTjoin.class) ; 
job.setMapperClass (Map.class) ; 
job.setReducerClass (Reduce.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new 
Path (otherArgs[1]) ); 
System.exit (job.waitForCompletion (true) ?0: 1); 
} 
} 


二 一 


5.6 本 章 小 结 








本 章 通 过 五 个 实例 向 读者 呈现 了 如 何 使 








MapReduce 程 序 解决 实际 问题 ， 其 中 第 一 个 
WordCount 实 例 是 MapReduce 的 入 门 程序 ， 它 能 统计 出 数据 文件 中 单词 


的 频数 ， 实 例 二 数据 
去 重 和 实例 三 数据 排序 ， 都 是 对 


原始 数据 的 初步 操作 ， 为 进一步 进行 数据 分 析 打 下 基础 ， 实 
例 四 单 表 关联 和 实例 五 多 表 关 联 是 对 数据 的 进一步 操作 ， 从 时 
例 相对 简单 普通 ， 但 是 都 能 利 
程 框架 的 魅力 所 在 。 









































挖掘 有 用 的 信息 。 虽 然 五 个 实 
































Hadoop 平 台 对 大 数据 集 进行 并 行 处 理 ， 展 示 了 MapReduce 编 


第 6 章 MapReduce 工 作 机 





DN 


本 章 内 


项 


MapReduce 作 业 的 执行 流程 
错误 处 理 机 制 

作业 调度 机 制 

Shuffle 和 排序 

任务 执行 


本 章 小 结 








关于 MapReduce 的 准备 知识 和 应 用 案例 在 本 书 前 面 章 节 
MapReduce 作 业 的 执行 情况 、 作 业 运 行 过 程 中 的 错误 机 制 、f 











制 


P 己 经 做 了 详细 介绍 ， 本 章 将 从 
E 业 的 调度 策略 、shuffle 和 排 





序 、 任 务 的 执行 等 几 个 方面 详细 讲解 MapReduce， 让 大 家 更 力 
机 制 ， 为 深入 学 习 使 用 Hadoop 和 Hadoop 子 项 目 打 下 基础 。 




















深入 地 了 解 MapReduce 的 运行 


6.1 MapReduce 作 业 的 执行 流程 




















从 第 5$ 章 的 MapReduce 编 程 实例 中 可 以 看 出 ， 只 要 在 mian O 函数 中 调用 Job 的 启动 接 
， 然 后 将 程序 提交 到 Hadoop 上 ，MapReduce 作 业 就 可 以 Hadoop 上 运行 。 另 外 ， 在 前 面 的 
章节 中 也 从 Task 运 行 角度 介绍 了 Map 和 Reduce 的 过 程 。 但 是 从 运行 "Hadoop JAR” 到 看 到 作业 
运行 结果 ， 这 中 间 实 际 上 还 涉及 很 多 其 他 细节 。 那 么 Hadoop 运 行 MapReduce 作 业 的 完整 步骤 
是 什么 呢 ? 每 一 步 又 是 如 何 具体 实现 的 呢 ? 本 节 将 详细 介绍 。 






































6.1.1 MapReduce 任 务 执行 总 流程 








通过 前 面 的 知识 我 们 知道 ， 一 个 MapReduce 作 业 的 执行 流程 是 ， 代 码 编写 一 作业 配置 一 
作业 提交 一 Map 任 务 的 分 配 和 执行 一 处 理 中 间 结 果 一 Reduce 任 务 的 分 配 和 执行 一 作业 完成 ， 
而 在 每 个 任务 的 执行 过 程 中 ， 又 包含 输入 准备 一 任务 执行 一 输出 结果 。 图 6-1 给 出 了 
MapReduce 作 业 详 细 的 执行 流程 图 。 
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图 6-1 MapReduce 作 业 执 行 的 流程 图 





从 图 6-1 中 可 以 看 出 ，MapReduce 作 业 的 执行 可 以 分 为 11 个 步骤， 涉及 4 个 独立 的 实体 。 
它们 在 MapReduce 执 行 过 程 中 的 主要 作用 是 : 






































客户 端 (Client) : 编写 MapReduce 代 码 ， 配 置 作业 ， 提 交 作业 ; 





JobTracker: 初始 化 作业 ， 分 配 作 业 ， 与 TaskTracker 通 信 ， 协 调整 个 作业 的 执行 ; 


TaskTracker: 保持 与 JobTracker 的 通信 ， 在 分 配 的 数据 片段 上 执行 Map 或 Reduce 任 务 ， 
需要 注意 的 是 ， 图 6-1 中 TaskTracker 节 点 后 的 省 略 号 表示 Hadoop 集 群 中 可 以 包含 多 个 
TaskTracker; 




















HDFS: 保存 作业 的 数据 、 配 置信 息 等 ， 保 存 作业 结果 。 





下 面 按照 图 6-1 中 MapReduce 作 业 的 执行 流程 结合 代码 详细 介绍 各 个 步 又 。 


6.1.2 ”提交 作业 


一 个 MapReduce 作 业 在 提交 到 Hadoop 上 之 后 ， 











户 除了 监控 程序 





的 执行 情况 和 强制 中 止 作业 之 外 ， 不 能 对 作业 的 执行 过 程 





会 进入 完全 地 自动 化 执行 过 程 。 


在 这 个 过 
进行 任何 








干预 。 
要 配置 





所 以 在 作业 提交 之 
的 主要 内 容 有 : 

















BI, 





户 需 要 将 所 有 应 i 


该 配置 的 参数 按照 自己 的 需求 配置 完毕 


Thi 


程序 代码 : 这 里 主要 是 指 Map 和 Reduce 函 数 的 具体 代码 ， 这 是 一 个 MapReduce 作 业 对 应 


的 程序 必 不 可 少 的 部 分 ， 并 


Map 
K, v2>, Reduced¥ 





要 配置 它们 的 四 











对 的 数据 类 型 和 context 实 例 ， 
还 有 一 个 要 求 是 Map 接 口 的 输 





为 Map 输 出 组 合 value 之 





输入 输出 路 径 ; 作 
的 输入 路 径 和 输出 路 径 
常 忽 视 的 错误 ) o RAE 








之 后 ， 
编写 的 MapReduce 程 序 中 会 





[Reduce 接 口 的 配置 : 在 MapReduce 中 ， 





别 是 Map 函 数 和 Reduce 函 数 ， 也 就 是 在 | 





出 key-value 类 型 
它们 会 成 为 Reduce 
忽视 这 个 问题 ) 。 





提交 之 前 ， 还 需要 在 主 函数 中 配置 MapReduce 作 业 在 Hadoop 集 
〈 必 须 保 证 输出 路 径 不 存在 ， 名 
的 代码 是 : 


且 这 部 分 代码 的 逻辑 正确 与 否 与 运行 结果 直接 相 





Map 接 口 需要 派生 自 Mapper<kl vl, 




















口 则 要 派生 自 Reducer< 忆 ，v2，1B，v3> 。 它 们 都 对 应 唯一 一 个 方 

上 一 点 中 所 写 的 代码 。 在 调用 这 两 个 方法 时 需 

个 参数 ， 分 别 是 输入 key 的 数据 类 型 、 输 入 value 的 数据 类 型 、 输 出 key-value 
其 中 输入 输出 的 数据 类 型 要 与 继承 时 所 设置 的 数据 类 型 相同 。 





1Reduce 接 口 的 输入 key-value 类 型 要 对 应 ， 因 
的 输入 内 容 (初学 者 请 特别 注意 ， 很 多 初学 者 








群 上 
I 果 存 在 程序 会 报错 ， 这 也 是 初学 者 经 








=== = 一 3 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new 


Path (otherArgs 


[1])); 


TTT | 

















作业 名 称 、 


其 他 类 型 设置 ， 比 如 调 


InputFormat 和 OutputFormat 等 ， 











runJob 方 法 : 先 要 在 主 函 数 





中 配置 如 Output 的 key 和 value 类 型 、 











最 后 再 调 








JobClient 的 runJob 方 法 。 

















配置 完 作 业 的 所 有 内 容 并 确认 无 误 之 后 就 可 以 运行 作业 了 ， 也 就 是 执行 图 6-1 中 的 步骤 
四 〈 具 体 提 交 方 法 不 再 歼 述 ， 请 参考 本 书 的 第 5 章 ) 。 









































户 程序 调用 JobClient 的 runJob 方 法 ， 在 提交 JobConf 对 象 之 后 ，runJob 方 法 会 先行 调 
JobSubmissionProtocol 接 口 所 定义 的 submitJob 方 法 ， 并 将 作业 提交 给 JobTraclker。 紧 接着 ， 
runJob 不 断 循环 ， 并 在 循环 中 调用 JobSubmissionProtocol 的 getTaskCompletionEvents 方 法 ， 获 
取 TaskCompletionEvent 类 的 对 象 实例 ， 了 解 作 业 的 实时 执行 情况 。 如 果 发 现 作 业 运 行 状态 有 
更 新 ， 就 将 状态 报告 给 JobTracker。 作 业 完 成 后 ， 如 果 成 功 则 显示 作业 计数 器 ， 和 否则， 将 导 
致 作业 失败 的 错误 记录 到 控制 台 。 












































从 上 面 介绍 的 作业 提交 的 过 程 可 以 看 出 ， 最 关键 的 是 JobClient 对 象 中 
submitJobInternal (final JobConf job) 方法 的 调用 执行 (submitob O 方法 调用 此 方法 真 ] 
执行 Job) ， 那 么 submitobInternal] 方 法 具体 是 怎么 做 的 ? 下 面 从 submityobInternal 的 代码 出 发 
介绍 作业 提交 的 详细 过 程 〈 只 列举 关键 代码 ) 。 


a 
public RunningJob submitJob (JobConf job) throws 
FileNotFoundException, 
ClassNotFoundException, InvalidJobConfException, IOException{ 









































F 








// 从 JobTracket 得 到 当前 任务 的 ID 
JobID jobId=jobSubmitClient.getNewJobId () ; 
// 获 取 HDFS 路 径 : 
Path submitJobDir=new Path (jobStagingArea, 
jobId.toString O ); 
jobCopy.set ("mapreduce.job.dir", submitJobDir.toString () ); 
// 获 取 路 径 令 牌 
TokenCache.obtainTokensForNameNodes (jobCopy.getCredentials O 
new Path[] 
{submitJobDir}, jobCopy) ; 
// 为 作业 生成 splits 
FileSystem fs=submitJobDir.getFileSystem (jobCopy) ; 
LOG.debug ("Creating splits 
at"+fs.makeQualified (submitJobDir) ) ; 
int maps=writeSplits (context, submitJobDir) ; 
jobCopy.setNumMapTasks (maps) ; 
// 将 Job 的 配置 信息 写 入 JobTracker 的 作业 缓存 文件 中 
FSDataOutputStream out=FileSystem.create (fs, 





H 





submitSplitFile, new 


FsPermission (JobSubmissionFiles.JOB_FILE_PERMISSION) ) ; 


try{ 

jobCopy.writeXml (out) 
}finally{ 

out.close () ; 











} 
// 真 正 地 调用 JobTracker 来 提交 任务 
JobStatus status=jobSubmitClient.submitJob (jobId, 














submitJobDir.toString ©, 
jobCopy.getCredentials 


从 上 面 的 代码 可 以 看 出 ， 整 个 提 











ODE 


交 过 程 包含 以 下 步 又 : 


1) 通过 调用 JobTracker 对 象 的 getNewJobId() 方法 从 JobTracler 处 获取 当前 作业 的 ID 号 











〈 见 图 6-1 中 的 步 又 @) 。 





2) 检查 作业 相关 路 径 。 在 代码 中 








P 获 取 各 个 路 径 信息 时 会 对 作业 





比如 ， 如 果 没 有 指定 输出 目录 或 它 已 


经 存在 ， 作 业 就 不 会 被 提交 ， 并 


的 对 应 路 径 进行 检查 。 
F 且 会 给 MapReduce 程 序 





返回 错误 信息 ;再 比如 输入 目录 不 存在 或 没有 对 应 令 牌 也 会 返回 错误 等 。 


3) 计算 作业 的 输入 划分 ， 并 将 划分 信息 写 入 Job.split 文 件 ， 如 果 写 入 失败 就 会 返回 错 
误 。split 文 件 的 信息 主要 包括 : split 文 件 头 、split 文 件 版 本 号 、split 的 个 数 。 这 些 信 息 中 每 一 
条 都 会 包括 以 下 内 容 : split 类 型 名 〈 默 认 FileSplity) 、split 的 大 小 、split 的 内 容 (对 于 FileSplit 来 
说 是 写 入 的 文件 名 ， 此 split 在 文件 中 的 起 始 位 置 上 ) 、split 的 location 信 息 《〈 即 在 哪个 











DataNode 上 ) 。 





4) 将 运行 作业 所 需要 的 资源 一 包括 作业 JAR 文 件 、 配 置 文件 和 计算 所 得 的 输入 划分 等 一 


复制 到 作业 对 应 的 HDFS 上 ( 见 图 6-1 











5) 调用 JobTracker 对 象 的 submitob O 方法 来 真 J 











执行 〈 见 图 6-1 的 步骤 四 ) 。 


的 步骤 @) 。 





E 提 交 作 业 ， 告 诉 JobTracker 作 业 准 备 


6.1.3 初始 化 作业 






































在 客户 端 用 户 作业 调 用 JobTraclker 对 象 的 submitob O 方法 后 ，JobTracker 会 把 此 调用 放 
入 内 部 的 TaskScheduler 变 量 中 ， 然 后 进行 调度 ， 默 认 的 调度 方法 是 JobQueueTaskScheduler， 
也 就 是 FIFO 调 度 方式 。 当 客户 作业 被 调度 执行 时 ，JobTracler 会 创建 一 个 代表 这 个 作业 的 
JobInProgress 对 象 ， 并 将 任务 和 记录 信息 封装 到 这 个 对 象 中 ， 以 便 跟 踪 任务 的 状态 和 进程 。 
接 下 来 JobInProgress 对 象 的 initTasks 函 数 会 对 任务 进行 初始 化 操作 ( 见 图 6-1 的 步骤 @)。 下 
面 仍 然 从 initTasks 函 数 的 代码 出 发 详细 讲解 初始 化 过 程 。 


二 一 
public synchronized void initTasks () throws IOException{ 


























// 从 HDFS 中 作业 对 应 的 路 径 读 取 job . split 文件 ， 生 成 inpPut 

//splits 为 下 面 Map 的 划分 做 好 准备 

TaskSplitMetaInfo[]splits=createSplits (jobId) ; 

// 根 据 input split 设 置 Map Task 个 数 

numMapTasks=splits.length; 

for (TaskSplitMetaInfo split: splits) { 

NetUtils.verifyHostnames (split.getLocations O ); } 

// 为 每 个 Map Tasks 生 成 一 个 raskInProgress 来 处 理 一 个 input split 

maps=new TaskInProgress[numMapTasks]; 

for (int i=0; i<numMapTasks; ++i) { 

inputLengtht=splits[i].getInputDataLength () ; 

maps[i]=new TaskInProgress (jobId, jobFile, splits[i], 
jobtracker, conf, 

this, i, numSlotsPerMap) ; } 

if (numMapTasks>0) { 

//map task 放 入 nonRunningMapCache， 其 将 在 JobTrackez 向 

//TaskTracker 分 配 Map Task 的 时 候 使 

nonRunningMapCache=createCache (splits, maxLevel) ; 


























} 

// 创 建 Reduce Task 

this.reduces=new TaskInProgress [numReduceTasks]; 

for (int i=0; i<numReduceTasks; i++) { 

reduces[i]=new TaskInProgress (jobId, jobFile, numMapTasks, 
i, jobtracker, 

conf, this, numSlotsPerReduce) ; 

//Reduce Task 放 入 nonRunningReduces， 其 将 在 JobTracker 向 

//TaskTracker 分 配 Reduce Task 的 时 候 使 

nonRunningReduces.add (reduces[i]); 

} 




















// 清 理 Map 和 Reduce 

cleanup=new TaskInProgress[2]; 

TaskSplitMetaInfo emptySplit=JobSplit.EMPTY_TASK_SPLIT; 

cleanup[0]=new TaskInProgress (jobId, jobFile, emptySplit, 
jobtracker, conf, 

this, numMapTasks) ; 

cleanup[0].setJobCleanupTask () ; 

cleanup[1]=new TaskInProgress (jobId, jobFile, numMapTasks, 
numReduceTasks, 

jobtracker, conf, this, 1); 

cleanup[1].setJobCleanupTask () ; 

// 创 建 两 个 初始 化 Task， 一 个 初始 化 Map， 一 个 初始 化 Reduce 

setup=new TaskInProgress[2]; 

setup[0]=new TaskInProgress (jobId, jobFile, emptySplit, 
jobtracker, conf, 

this, numMapTasks+l, 1); 

setup[0].setJobSetupTask () ; 

setup[1]=new TaskInProgress (jobId, jobFile, numMapTasks, 
numReduceTaskstl, 

jobtracker, conf, this, 1); 

setup[1].setJobSetupTask () ; 

tasksInited=true; // 初 始 化 完 





从 上 面 的 代码 可 以 看 出 初始 化 过 程 主要 有 以 下 步 又; 

















1) 从 HDFS 中 读 取 作 业 对 应 的 job.split( 见 图 6-1 的 步 又 @) 。JobTracker 从 HDFS 中 作业 
对 应 的 路 径 获取 JobClient 在 步骤 @ 中 写 入 的 job.split 文 件 ， 得 到 输入 数据 的 划分 信息 ， 为 后 面 
初始 化 过 程 中 Map 任 务 的 分 配 做 好 准备 。 














2) 创建 并 初始 化 Map 任 务 和 Reduce 任 务 。initTasks 先 根据 输入 数据 划分 信息 中 的 个 数 设 
定 Map Task 的 个 数 ， 然 后 为 每 个 Map Task 生 成 一 个 TaskinProgress 来 处 理 input split， 并 将 Map 
Task 放 入 nonRunningMapCache， 以 便 在 JobTracler 向 TaskTracker 分 配 Map Task 的 时 候 使 用 。 



































接 下 来 根据 JobConf 中 的 mapred.reducetasks 属 性 利用 setNumReduceTaslks O 方法 来 设置 





























reduce task 的 个 数 ， 然 后 采用 类 似 Map Task 的 方式 将 Reduce Task 放 入 nonRunningReduces 中 ， 




















以 便 向 TaskTracker 分 配 Reduce Task 时 使 用 。 


3) 最 后 就 是 创建 两 个 初始 化 Task， 根 据 个 数 和 输入 划分 已 经 配置 的 信息 ， 并 分 别 初始 化 
Map 和 Reduce。 





6.1.4 分 配 任务 


在 前 面 的 介绍 中 我 们 已 经 知道 ，TaskTracker 和 JobTracker 之 间 的 通信 和 任务 的 分 配 是 通 
过 心跳 机 制 完成 的 。TaskTracker 作 为 一 个 单独 的 VM 执行 一 个 简单 的 循环 ， 主 要 实现 每 隔 一 
段 时间 向 JobTraclker 发 送 心跳 (Heartbeat) : 告诉 JobTracker 此 TaskTracker 是 否 存活 ， 是 否 准 
备 执行 新 的 任务 。JobTracker 接 收 到 心跳 信息 ， 如 果 有 待 分 配 任务 ， 它 就 会 为 TaskTracker 分 
配 一 个 任务 ， 并 将 分 配 信息 封装 在 心跳 通信 的 返回 值 中 返回 给 TaskTracker。TaskTracker 从 心 
跳 方法 的 Response 中 得 知 此 TaskTracker 需 要 做 的 事情 ， 如 果 是 一 个 新 的 Task 则 将 它 加 入 本 机 
的 任务 队列 中 ( 见 图 6-1 的 步骤 @)》。 





























下 面 从 TaskTracker 中 的 transmitHeartBeat() 方法 和 JobTracker 中 的 heartbeat() 方法 的 
主要 代码 出 发 ， 介 绍 任务 分 配 的 详细 过 程 ， 以 及 在 此 过 程 中 TaskTracker 和 JobTracker 的 通 
信 。 





TaskTracker 中 transmitHeartBeat〈() 方法 的 主要 代码 : 


E 

// 向 JobTracker 报 告 TaskTracker 的 当前 状态 

if (status==null) { 

synchronized (this) { 

status=new TaskTrackerStatus (taskTrackerName, localHostname, 
httpPort, cloneAndRe 

setRunningTaskStatuses (sendCounters) , failures, maxMapSlots, 
maxReduceSlots) ; 

} 

} 








/ /根据 条 件 是 否 满足 来 确定 此 TaskTracker 是 否 请 求 JobTracker 

/ /为 其 分 配 新 的 Task 

boolean askForNewTask; 

long localMinSpaceStart; 

synchronized (this) { 

askForNewTask= (status.countMapTasks () <maxCurrentMapTasks| | 

status.countReduceTasks () <maxCurrentReduceTasks) && 
acceptNewTasks; 

localMinSpaceStart=minSpaceStart; 

} 





// 向 JobTracker 发 送 heartbeat 

HeartbeatResponse 
heartbeatResponse=jobClient.heartbeat (status, justStarted, 

justInited, askForNewTask, heartbeatResponseld) ; 


JobTracker#heartbeat O 方法 的 主要 代码 : 





// 如 果 TaskTracker 向 JobTracker 请 求 一 个 Task 运 行 
if (recoveryManager.shouldSchedule () &&acceptNewTasks&&! 
isBlacklisted) { 
TaskTrackerStatus 
taskTrackerStatus=getTaskTracker (trackerName) ; 
if (taskTrackerStatus==null) { 
LOG.warn ("Unknown task tracker polling; 
ignoring: "+trackerName) ; 
}else{ 
List<Task> 
tasks=getSetupAndCleanupTasks (taskTrackerStatus) ; 
if (tasks==null) { 
// 任 务 调度 器 分 配 任务 
tasks=taskScheduler.assignTasks (taskTrackers.get (trackerName 
} 
if (tasks! =null) { 
for (Task task: tasks) { 
// 将 任务 返回 给 TaskTracker 
expireLaunchingTasks.addNewTask (task.getTaskID () ) ; 
actions.add (new LaunchTaskAction (task) ) ; 
FEF pete 


二 一 





上 面 两 段 代码 展示 了 TaskTracker 和 JobTracker 之 间 通 过 心跳 通信 汇报 状态 与 分 配 任务 的 
详细 过 程 。TaskTracker 首 先 发 送 自己 的 状态 (主要 是 Map 任 务 和 Reduce 任 务 的 个 数 是 否 小 于 
上 限 ) ， 并 根据 自身 条 件 选择 是 否 向 JobTraclker 请 求 新 的 Task， 最 后 发 送 心跳 。JobTracler 接 
收 到 TaskTracker 的 心跳 后 首先 分 析 心 跳 信 息 ， 如 果 发 现 TaskTracker 在 请 求 一 个 Task， 那 么 任 
务 调度 器 就 会 将 任务 和 任务 信息 封装 起 来 返回 给 TaskTracker。 





针对 Map 任 务 和 Reduce 任 务 ，TaskTracker 有 固定 数量 的 任务 柳 (Map 任 务 和 Reduce 任 务 
的 个 数 都 有 上 限 ) 。 当 TaskTracker 从 JobTracker 返 回 的 心跳 信息 中 获取 新 的 任务 信息 时 ， 它 
会 将 Map 任 务 或 者 Reduce 任 务 加 入 对 应 的 任务 槽 中 。 需 要 注意 的 是 ， 在 JobTraclker 为 














TaskTracker 分 配 Map 任 务 时 ， 为 了 减 小 网 络 带宽 ， 会 考虑 将 map 任 务 数据 本 地 化 。 它 会 根据 
TaskTracker 的 网 络 位 置 ， 选 取 一 个 距离 此 TaskTracker map 任 务 最 近 的 输入 划分 文件 分 配给 此 
TaskTracker。 最 好 的 情况 是 ， 划 分 文件 就 在 TaskTracker 本 地 (TaskTracker 往 往 是 运行 在 
HDFS 的 DataNode 中 ， 所 以 这 种 情况 是 存在 的 ) 。 





6.1.5 执行 任务 





TaskTracker 申 请 到 新 的 任务 之 后 ， 就 要 在 本 地 运行 任务 了 。 运 行 任务 的 第 一 步 是 将 任务 
本 地 化 (将 任务 运行 所 必需 的 数据 、 配 置信 息 、 程 序 代码 从 HDFS 复 制 到 TaskTracker 本 地 ， 
见 图 6-1 的 步骤 @) 。 这 主要 是 通过 调用 localizeJob O 方法 来 完成 的 (此 方法 的 具体 代码 并 
不 复杂 ， 不 再 列 出 ) 。 这 个 方法 主要 通过 下 面 几 个 步 又 来 完成 任务 的 本 地 化 : 























1) 将 job.split 复 制 到 本 地 ; 
2) 将 jobjar 复 制 到 本 地 ; 
3) 将 job 的 配置 信息 写 入 job.xml; 


4) 创建 本 地 任务 目录 ， 解 压 jobjar; 











5) 调用 launchTaskForJob () 方法 发 布 任务 〈 见 图 6-1 的 步骤 @) 。 














任务 本 地 化 之 后 ， 就 可 以 通过 调用 launchTaskForJob O 真正 启动 起 来 。 接 下 来 
launchTaskForJob O 又 会 调用 launchTask() 方法 启动 任务 。launchTask O 方法 的 主要 代码 
WP: 
eee 
































/ /创建 Task 本 地 运行 目录 

localizeTask (task) ; 

if (this.taskStatus.getRunState () 
==TaskStatus.State.UNASSIGNED) { 

this.taskStatus.setRunState (TaskStatus.State.RUNNING) ; 


} 

/ /创建 并 启动 TaskRunner 

this.runner=task.createRunner (TaskTracker.this, this) ; 
this.runner.start 0); 

this.taskStatus.setStartTime (System.currentTimeMillis © ); 





een 
从 代码 中 可 以 看 出 launchTask() 方法 会 先 为 任务 创建 本 地 目录 ， 然 后 启动 TaskRunner。 





在 启动 TaskRunner 后 ， 对 于 Map 任 务 ， 会 启动 MapTaskRunner; 对 于 Reduce 任 务 则 启动 


ReduceTaskRunner。 


之 后 ，TaskRunner 又 会 启动 新 的 Java 虚 拟 机 来 运行 每 个 任务 〈 见 图 6-1 的 步骤 加) 。 以 
Map 任 务 为 例 ， 任 务 执行 的 简单 流程 是 : 


1) 配置 任务 执行 参数 〈 获 取 Java 程 序 的 执行 环境 和 配置 参数 等 ) ， 


2) 在 Child 临 时 文件 表 中 添加 Map 任 务 信息 《运行 Map 和 Reduce 任 务 的 主 进程 是 Child 
类 ) ; 








3) 配置 log 文 件 夹 ， 然 后 配置 Map 任 务 的 通信 和 输出 参数 ; 


4) 读 取 input split， 生 成 RecordReader 读 取 数 据 ; 




















5) 为 Map 任 务 生 成 MapRunnable， 依 次 从 RecordReader 中 接收 数据 ， 并 调用 Mapper 的 
Map 函 数 进行 处 理 ; 




















6) 最 后 将 Map 函 数 的 输出 














调用 collect 收 集 到 MapOutputBuffer 中 〈 见 图 6-1 的 步骤 11) 。 








6:1. 


进入 完全 地 自动 
MapReduce 作 业 是 
而 言 
到 在 


任务 中 ， 


务 时 
进度 组 合 
Reducer) 读 入 或 写 出 一 


6 更 新 任 


在 本 章 的 作业 提交 过 程 








， 能 够 得 知 作 } 
E 业 执行 过 程 中 














在 MapReducef 
其 任务 进 | 


E 业 中 ， 














出 现 








包 来 的 结果 〉。 


progess O 方法 。 


代码 如 




















务 执行 进 / 


化 执行 过 程 ， 
一 个 长 时 间 运 行 的 批量 作 
的 运行 
有 一 些 简单 


就 是 已 处 理 输入 的 百 分 E 
的 进度 就 是 50% (这 里 只 是 针对 一 
的 Map 50%， 在 终端 中 出 现 的 50% 是 
总 体 来 讲 ， 
-条 记录 ， 在 报告 


由 MapReduce 作 业 分 割 成 的 每 个 任务 中 
组 成 事件 进行 计数 。 如 果 
TaskTracker 上 。 男 一 个 监听 线程 检查 到 这 标志 后 
下 (这 是 Map Task 中 run 函 数 的 部 分 代码 〉: 





和 状态 





中 我 们 曾 介 绍 


PUR BEL 

















监控 程 








状态 是 非常 重要 的 。 


在 Linux 终 站 














作业 的 进度 主要 由 一 些 可 衡量 可 计数 的 小 操 f 
EE， 如 果 完 成 100 条 记录 
-个 Map 任 务 举例 ， 并 不 是 在 Linux 终 端 中 
总 体 Map 任 务 的 进度 ， 这 是 将 所 有 Map 任 务 的 
的 进度 由 下 面 几 项 组 成 : Mapper (或 
设置 状态 描述 ， 增 加 计数 器 ， 调 














MapReduce 作 业 








的 作业 执行 状态 报告 ， 这 能 
况 ， 并 通过 与 预期 运行 情况 的 对 比 来 确定 作业 是 否 


让 




















都 有 一 组 计数 器 ， 它 们 对 任务 


: 一 个 MapReduce 作 业 在 提交 到 Hadoop 上 之 后 ， 会 
序 的 执行 状态 和 强制 
， 有 时 候 可 能 需要 运行 数 小 时 。 所 以 对 于 用 
肖 运 行 MapReduce 作 业 时 ， 可 


h 止 作业 。 但 是 











户 
JA 





户 大 致 了 解 作业 的 运行 情 
按照 预定 方式 运行 。 


FE 组 成 。 比 如 在 Map 
bh 的 50 条 ， 那 么 Map 任 务 


执行 MapReduce 任 

















Reporter 对 象 的 





执行 过 程 中 的 进度 








任务 要 报告 进度 ， 它 便 会 设置 一 个 标志 以 表明 状 3 
后 ， 会 告知 TaskTracker 当 前 


态 变化 将 会 发 送 到 





的 任务 状态 。 具 体 


| CC 一 一 一 | 


umbilical, 





// 


同 TaskTracker 通 信 ， 汇 报 任务 执行 进度 


TaskReporter reporter=new TaskReporter (getProgress O ， 


jvmContext) ; 


startCommunicationThread (umbilical) ; 
initialize (job, getJobID (), reporter, useNewApi) ; 


"| 


同时 ，TaskTracker 在 每 隔 5 秒 发 送 给 JobTracker 的 心跳 9 
执行 状态 。 有 具体 代码 如 下 〈 这 是 TaskTraclerr 








bh 封装 任务 状态 ， 报 告 自己 的 任务 
HtransmitHeartBeat O 方法 的 部 分 代码 ) + 


== = 二 3 
// 每 隔 一 段 时 间 ， 向 JobTracker 返 回 一 些 统计 信息 
boolean sendCounters; 
if (now> (previousUpdate+COUNTER_UPDATE_ INTERVAL) ) { 
sendCounters=true; previousUpdate=now; 
} 
else{ 
sendCounters=false; 
} 
[| 


通过 心跳 通信 机 制 ， 所 有 TaskTracker 的 统计 信息 都 会 汇总 到 JobTracker 处 。JobTracker 将 
这 些 统计 信息 合并 起 来 ， 产 生 一 个 全 局 作业 进度 统计 信息 ， 用 来 表明 正在 运行 的 所 有 作业 ， 
以 及 其 中 所 含 任务 的 状态 。 最 后 ，JobClient 通 过 每 秒 查 看 JobTracker 来 接收 作业 进度 的 最 新 状 
态 。 具 体 代码 如 下 (这 是 JobClient 中 用 来 提交 作业 的 runJob() 方法 的 部 分 代码 ) : 


ess | 
// 首 先生 成 一 个 Jobclient 对 象 
JobClient jc=new JobClient (job) ; 
// 调 用 submitJob 来 提交 一 个 任务 
running=jc.submitJob (job) ; 
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tt 
































// 使 用 monitorAndPrintJob 方 法 不 断 监控 作业 进度 

if (! jc.monitorAndPrintJob (job, rj) ) { 

LOG.info ("Job Failed: "+rj.getFailureInfo () ) ; 

throw new IOException ("Job failed! "); 

} 
一 4 




















6.1.7 ”完成 作业 


所 有 TaskTracker 任 务 的 执行 进度 信息 都 会 汇总 到 JobTracker 处 ， 当 JobTracker 接 收 到 最 后 
一 个 任务 的 已 完成 通知 后 ， 便 把 作业 的 状态 设置 为 "成功 "。 然 后 ，JobClient 也 将 及 时 得 知 任 
务 已 成 功 完成 ， 它 会 显示 一 条 信息 告知 用 户 作业 已 完成 ， 最 后 从 runJob O 方法 处 返回 CE 
返回 后 JobTracker 会 清空 作业 的 工作 状态 ， 并 指示 TaskTracker 也 清空 作业 的 工作 状态 ， 比 如 
删除 中 间 输 出 等 ) 。 


























6.2 ”错误 处 理 机 制 


众所周知 ，Hadoop 有 很 强 的 容错 性 。 这 主要 是 针对 由 成 千 上 万 台 普 通 机 器 组 成 的 集群 中 
常态 化 的 硬件 故障 ，Hadoop 能 够 利用 元 余数 据 方式 来 解决 硬件 故障 ， 以 保证 数据 安全 和 任务 
执行 。 那 么 MapReduce 在 具体 执行 作业 过 程 中 遇 到 硬件 故障 会 如 何 处 理 呢 ? 对 于 用 户 代码 的 
缺陷 或 进程 角 省 引起 的 错误 又 会 如 何 处 理 呢 ? 本 节 将 从 硬件 故障 和 任务 失败 两 个 方面 说 明 
MapReduce 的 错误 处 理 机 制 。 















































6.2.1 硬件 故障 


从 MapReduce 任 务 的 执行 角度 出 发 ， 所 涉及 的 硬件 主要 是 JobTracker 和 TaskTracker( 对 
应 从 HDFS 出 发 就 是 NameNode 和 DataNode ) 。 显 然 硬件 故障 就 是 JobTracker 机 器 故障 和 
TaskTracker 机 器 故障 。 





在 Hadoop 集 群 中 ， 任 何 时 候 都 只 有 唯一 一 个 JobTracker。 所 以 JobTracker 故 障 就 是 单 点 
故障 ， 这 是 所 有 错误 中 最 严重 的 。 到 目前 为 止 ， 在 Hadoop 中 还 没有 相应 的 解决 办 法 。 能 够 想 
到 的 是 通过 创建 多 个 备用 JobTracker 节 点 ， 在 主 JobTracker 失 败 之 后 采用 领导 选举 算法 






















































































(Hadoop 中 常用 的 一 种 确定 Master 的 算法 ) 来 重新 确定 JobTracker 节 点 。 一 些 企业 使 
Hadoop 提 供 服务 时 ， 就 采用 了 这 样 的 方法 来 避免 JobTracker 错 误 。 


























机 器 故障 除了 JobTracker 错 误 就 是 TaskTracker 错 误 。TaskTracker 故 障 相对 较为 常见 ， 并 
且 MapReduce 也 有 相应 的 解决 办 法 ， 主 要 是 重新 执行 任务 。 下 面 将 详细 介绍 当 作业 过 到 
TaskTracler 错 误 时 ，MapReduce 所 采取 的 解决 步骤 。 














在 Hadoop 中 ， 正 常情 况 下 ，TaskTracker 会 不 断 地 与 系统 JobTracker 通 过 心跳 机 制 进行 通 
售 。 如 果 某 TasKTraclker 出 现 故 障 或 运行 缓慢 ， 它 会 停止 或 者 很 少 向 JopTracler 发 送 心跳 。 如 


果 一 个 TaskTracker 在 一 定时 间 内 (默认 是 1 分 钟 ) 没有 与 JobTracler 通 信 ， 那 么 JobTracler 会 
将 此 TaskTracker 从 等 待 任务 调度 的 TaskTracker 集 合 中 移 除 。 同 时 JobTracker 会 要 求 此 








TaskTracker 上 的 任务 立刻 返回 ， 如 果 此 TaskTracker 任 务 是 仍然 在 mapping 阶 段 的 Map 任 务 ， 











那么 JobTracker 会 要 求 其 他 的 TaskTracker 重 新 执行 所 有 原本 由 故障 TaskTracker 执 行 的 Map 任 
务 。 如 果 任 务 是 在 Reduce 阶 段 的 Reduce 任 务 ， 那 么 JobTracler 会 要 求 其 他 TashTracker 重 新 执 
行 故障 TaskTracker 未 完成 的 Reduce 任 务 。 比 如 ， 一 个 TaskTracker 已 经 完成 被 分 配 的 三 个 
Reduce 任 务 中 的 两 个 ， 因 为 Reduce 任 务 一 旦 完成 就 会 将 数据 写 到 HDFS 上 ， 所 以 只 有 第 三 个 
未 完成 的 Reduce 需 要 重新 执行 。 但 是 对 于 Map 任 务 来 说 ， 即 使 TashTracker 完 成 了 部 分 Map， 
Reduce 仍 可 能 无 法 获取 此 节点 上 所 有 Map 的 所 有 输出 。 所 以 无 论 Map 任 务 完成 与 否 ， 故 障 
TashTracker 上 的 Map 任 务 都 必须 重新 执行 。 


























6.2.2 ”任务 失败 











在 实际 任务 中 ，MapReduce 作 业 还 会 遇 到 用 户 代码 缺 陷 或 进程 崩溃 引起 的 任务 失败 等 情 
况 。 用 户 代码 缺陷 会 导致 它 在 执行 过 程 中 抛 出 异常 。 此 时 ， 任 务 JVM 进 程 会 自动 退出 ， 并 向 
TashTracker 父 进程 发 送 错 误 消息 ， 同 时 错误 消息 也 会 写 入 log 文 件 ， 最 后 TasKTracker 将 此 次 
任务 尝试 标记 失败 。 对 于 进程 骨 溃 引起 的 任务 失败 ，TashTracler 的 监听 程序 会 发 现 进程 退 
出 ， 此 时 TaskTracker 也 会 将 此 次 任务 尝试 标记 为 失败 。 对 于 死 循 环 程序 或 执行 时 间 太 长 的 程 
序 ， 由 于 TashTracker 没 有 接收 到 进度 更 新 ， 它 也 会 将 此 次 任务 尝试 标记 为 失败 ， 并 杀 死 程序 
对 应 的 进程 。 









































在 以 上 情况 中 ，TaskTracker 将 任务 尝试 标记 为 失败 之 后 会 将 TaskTracker 自 身 的 任务 计数 
器 减 1， 以 便 向 JobTracker 申 请 新 的 任务 。TaskTracker 也 会 通过 心跳 机 制 告 诉 JobTracker 本 地 
的 一 个 任务 尝试 失败 。JobTracler 接 到 任务 失败 的 通知 后 ， 通 过 重 置 任务 状态 ， 将 其 加 入 到 
调度 队列 来 重新 分 配 该 任务 执行 (JobTracler 会 尝试 避免 将 失败 的 任务 再 次 分 配给 运行 失败 
的 TaskTracker〉。 如 果 此 任务 尝试 了 4 次 (次 数 可 以 进行 设置 ) 仍 没有 完成 ， 就 不 会 再 被 重 
试 ， 此 时 整个 作业 也 就 失败 了 。 





























6.3 ”作业 调度 机 制 











在 0.19.0 版 本 之 前 ，Hadoop 集 群 上 的 用 户 作 业 采 用 先进 先 出 (FIFO, First Input First 
Output) 调度 算法 ， 即 按照 作业 提交 的 顺序 来 运行 。 同 时 每 个 作业 都 会 使 用 整个 集群 ， 因 此 
它们 只 有 轮 到 自己 运行 才能 享受 整个 集群 的 服务 。 虽 然 FIFO 调 度 器 最 后 又 支持 了 设置 优先 级 
的 功能 ， 但 是 由 于 不 支持 优先 级 抢占 ， 所 以 这 种 单 用 户 的 调度 算法 仍然 不 符合 云 计算 中 采 
并 行 计算 来 提供 服务 的 宗旨 。 从 0.19.0 版 本 开始 ，Hadoop 除 了 默认 的 FIFO 调 度 器 外 ， 还 提供 
了 支持 多 用 户 同时 服务 和 集群 资源 公平 共享 的 调度 器 ， 即 公平 调度 器 (Fair Scheduler 
Guide) 和 容量 调度 器 (Capacity Scheduler Guide) 。 下 面 主要 介绍 公平 调度 器 。 








































































































公平 调度 是 为 作业 分 配 资源 的 方法 ， 其 目的 是 随 着 时 间 的 推移 ， 让 提交 的 作业 获取 等 量 
的 集群 共享 资源 ， 让 用 户 公平 地 共享 集群 。 具 体 做 法 是 : 当 集 群 上 只 有 一 个 作业 在 运行 时 ， 
它 将 使 用 整个 集群 ， 当 有 其 他 作业 提交 时 ， 系 统 会 将 TaskTracker 节 点 空闲 时 间 片 分 配给 这 些 
新 的 作业 ， 并 保证 每 一 个 作业 都 得 到 大 概 等 量 的 CPU 时 间 。 



















































































公平 调度 器 按 作 业 池 来 组 织 作 业 ， 它 会 按照 提交 作业 的 用 户 数目 将 资源 公平 地 分 到 这 些 
， 每 一 个 用 户 拥有 一 个 独立 的 作业 池 ， 以 使 每 个 用 户 都 能 获得 一 份 等 
会 管 它们 提交 了 多 少 作 业 。 在 每 一 个 资源 池内 ， 会 用 公平 共享 的 方法 在 运 
量 


量 。 除 了 提供 公平 共享 方法 外 ， 公 平 调度 器 还 允许 为 作业 池 设 置 最 小 的 共 


































































































行 作业 之 间 共 享 容 


















































享 资源 ， 以 确保 特定 用 户 、 群 组 或 生产 应 用 程序 总 能 获取 到 足够 的 资源 。 对 于 设置 了 最 小 共 
享 资源 的 作业 池 来 说 ， 如 果 包 含 了 作业 ， 它 至 少 能 获取 到 最 小 的 共享 资源 。 但 是 如 果 最 小 共 





















源 超过 作业 需要 的 资源 时 ， 额 外 的 资源 会 在 其 他 作业 池 间 进行 切 分 。 
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在 常规 操作 中 ， 当 提交 一 个 新 作业 时 ， 公 平 调度 器 会 等 待 已 运行 作业 中 的 任务 完成 ， 以 
释放 时 间 片 给 新 的 作业 。 但 公平 调度 器 也 支持 作业 抢占 。 如 果 新 的 作业 在 一 定时 间 《〈 即 超时 
寺 间 ， 可 以 配置 ) 内 还 未 获取 公平 的 资源 分 配 ， 公 平 调度 器 就 会 允许 这 个 作业 抢占 已 运行 作 
业 中 的 任务 ， 以 获取 运行 所 需要 的 资源 。 另 外 ， 如 果 作 业 在 超时 时 间 内 获取 的 资源 不 到 公平 
共享 资源 的 一 半 时 ， 也 允许 对 任务 进行 抢占 。 而 在 选择 时 ， 公 平 调度 器 会 在 所 有 运行 任务 中 


















































选择 最 近 运 行 起 来 的 任务 ， 这 样 浪费 的 计算 相对 较 少 。 由 于 Hadoop 作 业 能 
占 不 会 导致 被 抢占 的 作业 失败 ， 只 是 让 被 抢占 作业 的 运行 时 间 更 长 。 
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平 调度 器 还 可 以 限制 每 个 用 户 和 每 个 作业 池 并 发 运行 的 作业 数量 。 这 个 限制 可 
以 在 用 户 一 次 性 提交 数 百 个 作业 或 当 大 量 作业 并 发 执行 时 用 来 确保 中 间 数 据 不 会 塞 满 集群 上 
的 磁盘 空间 。 超 出 限制 的 作业 会 被 列 入 调度 器 的 队列 中 进行 等 待 ， 直 到 早期 作业 运行 完毕 


元 十 。 
























































平 调度 器 再 根据 作业 优先 权 和 提交 时 间 的 排列 情况 从 等 待 作业 中 调度 即将 运行 的 作业 。 
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6.4 Shufte 和 排序 





从 前 面 的 介绍 中 我 们 得 知 ，Map 的 输出 会 经 过 一 个 名 为 shuffle 的 过 程 交 给 Reduce 处 理 
(在 “MapReduce 数 据 流 ”图 中 也 可 以 看 出 ) ， 当 然 也 有 Map 的 结果 经 过 sort-merge 交 给 
Reduce 处 理 的 。 其 实在 MapReduce 流 程 中 ， 为 了 让 Reduce 可 以 并 行 处 理 Map 结 果 ， 必 须 对 
Map 的 输出 进行 一 定 的 排序 和 分 割 ， 然 后 再 交 给 对 应 的 Reduce， 而 这 个 将 Map 输 出 进行 进 一 
步 整 理 并 交 给 Reduce 的 过 程 就 成 为 了 shuffle 。 从 shuffle 的 过 程 可 以 看 出 ， 它 是 MapReduce 的 
核心 所 在 ，shuffle 过 程 的 性 能 与 整个 MapReduce 的 性 能 直接 相关 。 





























总 体 来 说 ，shuffle 过 程 包含 在 Map 和 Reduce 两 端 中 。 在 Map 端 的 shuffle 过 程 是 对 Map 的 
结果 进行 划分 (partition》、 排 序 (sort) 和 分 割 (spil) ， 然 后 将 属于 同一 个 划分 的 输出 合 
并 在 一 起 (merge) 并 写 在 磁盘 上 ， 同 时 按照 不 同 的 划分 将 结果 发 送 给 对 应 的 Reduce (Map 
输出 的 划分 与 Reduce 的 对 应 关系 由 JobTracker 确 定 ) 。Reduce 端 又 会 将 各 个 Map 送 来 的 属于 
同一 个 划分 的 输出 进行 合并 (merge ) ， 然 后 对 merge 的 结果 进行 排序 ， 最 后 交 给 Reduce 处 
理 。 下 面 将 从 Map 和 Reduce 两 端详 细 介 绍 shuffle 过 程 。 











6.4.1 Map 端 





从 MapReduce 的 程序 中 可 以 看 出 ，Map 的 输出 结果 是 由 collector 处 理 的 ， 所 以 Map 端 的 
shuffle 过 程 包含 在 collect 函 数 对 Map 输 出 结果 的 处 理 过 程 中 。 下 面 从 具体 的 代码 来 分 析 Map 端 
的 shuffle 过 程 。 








首先 从 collect 函 数 的 代码 入 手 (MapTask 类 ) 。 从 下 面 的 代码 段 可 以 看 出 Map 函 数 的 输出 
内 存 缓冲 区 是 一 个 环形 结构 。 








SSS 
final int kvnext= (kvindex+1) %kvoffsets.length; 
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但 是 在 分 割 的 时 候 Map 并 不 会 阻止 继续 向 缓冲 区 中 写 入 结果 ， 如 果 Map 结 果 生 成 的 速度 














快 于 写 出 速度 ， 那 么 缓冲 区 会 写 满 ， 这 时 Map 任 务必 须 等 待 ， 直 到 分 割 写 出 过 程 结 束 。 这 个 
过 程 可 以 参考 下 面 的 代码 。 
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do{ 
// 在 环形 缓冲 区 中 ， 如 果 下 一 个 空闲 位 置 同 起 始 位 置 相等 ， 那 么 缓冲 
// 已 满 
kvfull=kvnext==kvstart; 

// SPIGA KA A AE He I BS HH FEL, 

final boolean kvsoftlimit= ( (kvnext>kvend) 
?kvnext-kvend>softRecordLimit 

: kvend-kvnext <=kvoffsets.length-softRecordLimit) ; 
// 达 到 阔 值 ， 写 出 缓冲 区 内 容 ， 形 成 spil1 文 件 

if (kvstart==kvend& &kvsoftlimit) { 

startSpill O ; 











区 














} 

// 如 果 缓 冲 区 满 ， 则 Map 任 务 等 待 写 出 过 程 结束 
if (kvfull) { 

while (kvstart! =kvend) { 
reporter.progress () ; 
spillDone.await (O) ; 

} 

} 

}while (kvfull) ; 
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一 次 就 会 创建 一 个 spill 文 件 ， 然 后 按照 ley 值 对 需要 写 出 的 数据 进行 排序 ， 最 后 按照 划分 的 顺 














在 collect 函 数 中 将 缓冲 区 中 的 内 容 写 出 时 会 调用 sortAndSp 训 函数 。sortAndSp 训 每 被 调 












































序 将 所 有 需要 写 出 的 结果 写 入 这 个 sp 让 文件 中 。 如 果 用 户 作业 配置 了 combiner 类 ， 那 么 在 写 
出 过 程 中 会 先 调用 combineAndSpill O 再 写 出 ， 对 结果 进行 进一步 合并 (combine) 是 为 了 
让 Map 的 输出 数据 更 加 紧凑 。sortAndSp 训 函数 的 执行 过 程 可 以 参考 下 面 sortAndSp 记 函数 的 代 


码 。 
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// 创 建 spil1 文 件 
Path filename=mapOutputFile.getSpillFileForWrite (numSpills, 


size); 


out=rfs.create (filename) ; 


// 按 照 key 值 对 待 写 出 数据 进行 排序 


sorter.sort (MapOutputBuffer.this, kvstart, endPosition, 
reporter) ; 

// 按 照 划分 将 数据 写 入 文件 

for (int i=0; i<partitions; ++i) { 

IFile.Writer<kK, V>writer=null; 

long segmentStart=out.getPos () ; 

writer=new Writer<K, V> (job, out, keyClass, valClass, 
codec, spilledRecordsCounter) ; 

// 如 果 没 有 配置 combiner 类 ， 数 据 直 接 写 入 文件 

if (null==combinerClass) { 


// 如 果 配 置 了 combiner 类 ， 则 先 调用 combineAndspil1 函 
// 数 后 再 写 入 文件 

combineAndSpill (kvIter, combineInputCounter) ; 
} 

} 


+ 


























显然 ， 直 接 将 每 个 Map 生 成 的 众多 spil 文 件 〈 因 为 Map 过 程 中 ， 每 一 次 缓冲 区 写 出 都 会 产 
生 一 个 spill 文 件 ) 交 给 Reduce 处 理 不 现实 。 所 以 在 每 个 Map 任 务 结束 之 后 在 Map 的 
TaskTracker 上 还 会 执行 合并 操作 (merge) ， 这 个 操作 的 主要 目的 是 将 Map 生 成 的 众多 spill 文 
件 中 的 数据 按照 划分 重新 组 织 ， 以 便于 Reduce 处 理 。 主 要 做 法 是 针对 指定 的 分 区 ， 从 各 个 
spill 文 件 中 拿 出 属于 同一 个 分 区 的 所 有 数据 ， 然 后 将 它们 合并 在 一 起 ， 并 写 入 一 个 已 分 区 且 
己 排 序 的 Map 输 出 文件 中 。 这 个 过 程 的 详细 情况 请 参考 mergeParts〈() 函数 的 代码 ， 这 里 不 
再 列 出 。 
























































待 唯一 的 已 分 区 且 已 排序 的 Map 输 出 文件 写 入 最 后 一 条 记录 后 ，Map 端 的 shuffle 阶 段 就 
结束 了 。 下 面 就 进入 Reduce 端 的 shuffle 阶 段 。 


6.4.2 Reduce 端 


在 Reduce 端 ，shuffle 阶 段 可 以 分 成 三 个 阶段 : 复制 Map 输 出 、 排 序 合 并 和 Reduce 处 理 。 
下 面 按照 这 三 个 阶段 进行 详细 介绍 。 


如 前 文 所 述 ，Map 任 务 成 功 完成 后 ， 会 通知 父 TashTracker 状 态 已 更 新 ，TaskTracker 进 而 
通知 JobTracker〈 这 些 通 知 在 心跳 机 制 中 进行 ) 。 所 以 ， 对 于 指定 作业 来 说 ，JobTracler 能 够 
记录 Map 输 出 和 TaskTracker 的 映射 关系 。Reduce 会 定期 向 JobTracker 获 取 Map 的 输出 位 置 。 
一 旦 拿 到 输出 位 置 ，Reduce 任 务 就 会 从 此 输出 对 应 的 TaskTracker 上 复制 输出 到 本 地 (如 果 
Map 的 输出 很 小 ， 则 会 被 复制 到 执行 Reduce 任 务 的 TaskTracker 节 点 的 内 存 中 ， 便 于 进一步 处 
理 ， 否 则 会 放 入 磁盘 〉 ， 而 不 会 等 到 所 有 的 Map 任 务 结束 。 这 就 是 Reduce 任 务 的 复制 阶段 。 























在 Reduce 复 制 Map 的 输出 结果 的 同时 ，Reduce 任 务 就 进入 了 合并 (merge) 阶段 。 这 一 
阶段 主要 的 任务 是 将 从 各 个 Map TaskTracker 上 复制 的 Map 输 出 文件 (无 论 在 内 存 还 是 在 磁 
HO 进行 整合 ， 并 维持 数据 原来 的 顺序 。 











reduce 端 的 最 后 阶段 就 是 对 合并 的 文件 进行 reduce 人 处理。 下面 是 reduce Task 上 run 函 数 的 
部 分 代码 ， 从 这 个 函数 可 以 看 出 整个 Reduce 端 的 三 个 步 又。 


// 复 制 阶段 ， 从 map TaskTracker 处 获取 Map 输 出 
boolean 
isLocal="local".equals (job.get ("mapred.job.tracker", "local") ) ; 
if (! isLocal) { 
reduceCopier=new ReduceCopier (umbilical, job, reporter) ; 
if (! reduceCopier.fetchOutputs () ) { 


} 
// 复 制 阶段 结束 


copyPhase.complete © ; 
// 合 并 阶段 ， 将 得 到 的 Map 输 出 合并 
setPhase (TaskStatus.Phase.SORT) ; 
// 合 并 阶段 结束 


sortPhase.complete () ; 








//Reduce 阶 段 

setPhase (TaskStatus.Phase.REDUCE) ; 

// 启 动 Reduce 

Class keyClass=job.getMapOutputKeyClass () ; 

Class valueClass=job.getMapOutputValueClass () ; 

RawComparator 
comparator=job.getOutputValueGroupingComparator () ; 

if (useNewApi) { 

runNewReducer (job, umbilical, reporter, rIter, comparator, 
keyClass, valueClass) ; 

}else{ 

runOldReducer (job, umbilical, reporter, rIter, comparator, 
keyClass, valueClass) ; 

} 

done (umbilical, reporter) ; 

} 
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6.4.3 ” shuffle 过程 的 优化 


熟悉 了 上 面 介 绍 的 shuffle 过 程 ， 可 能 有 读者 会 说 ， 这 个 shuffle 过 程 不 是 最 优 的 。 是 的 ， 
Hadoop 采 用 的 shuffle 过 程 并 不 是 最 优 的 。 举 个 简单 的 例子 ， 如 果 现 在 需要 Hadoop 集 群 完成 两 
个 集合 的 并 操作 ， 事 实 上 并 操作 只 需要 让 两 个 集群 中 重复 的 元 素 在 最 后 的 结果 中 出 现 一 次 就 
可 以 了 ， 并 不 要 求 结果 的 元 素 是 按 顺 序 排列 的 。 但 是 如 果 使 用 Hadoop 默 认 的 shuffle 过 程 ， 那 
么 结果 势必 是 排 好 序 的 ， 显 然 这 个 处 理 就 不 是 必须 的 了 。 在 这 里 简单 介绍 从 Hadoop 参 数 的 配 
置 出 发 来 优化 shuffle 过 程 。 在 一 个 任务 中 ， 完 成 单位 任务 使 用 时 间 最 多 的 一 般 都 是 IO 操作 。 
在 Map 端 ， 主 要 就 是 shuffle 阶 段 中 缓冲 区 内 容 超过 阔 值 后 的 写 出 操作 。 可 以 通过 合理 地 设置 
ip.sort* 属 性 来 减少 这 种 情况 下 的 写 出 次 数 ， 有 具体 来 说 就 是 增加 io.sortmb 的 值 。 在 Reduce 
端 ， 在 复制 Map 输 出 的 时 候 直接 将 复制 的 结果 放 在 内 存 中 同样 能 够 提升 性 能 ， 这 样 可 以 让 部 
分 数据 少 做 两 次 MO 操作 《前 提 是 留 下 的 内 存 足 够 Reduce 任 务 执行 ) 。 所 以 在 Reduce 函 数 的 
内 存 需 求 很 小 的 情况 下 ， 将 mapred.inmem.merge.threshold 设 置 为 0， 将 
mapreed:jobreduce.inputbufferpercent 设 置 为 1.0〈 或 者 一 个 更 低 的 值 ) 能 够 让 IO 操作 更 
少 ， 提 升 shuffle 的 性 能 。 
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6.5 ”任务 执行 


本 章 前 面 详细 介绍 了 MapReduce 作 业 的 执行 流程 ， 也 简单 介绍 了 基于 Hadoop 自 身 的 一 些 
参数 优化 。 本 节 再 介绍 一 些 Hadoop 在 任务 执行 时 的 具体 策略 ， 让 读者 进一步 了 解 MapReduce 
任务 的 执行 细节 ， 以 便 控制 细节 。 





6.5.1 推测 式 执行 


所 谓 推测 式 执行 是 指 当 作业 的 所 有 任务 都 开始 运行 时 ，JobTraclker 会 统计 所 有 任务 的 平 
均 进度 ， 如 果 某 个 任务 所 在 的 TaskKTracler 节 点 由 于 配置 比较 低 或 CPU 负载 过 高 ， 导 致 任务 执 
行 的 速度 比 总 体 任务 的 平均 速度 要 慢 ， 此 时 JobTracker 就 会 启动 一 个 新 的 备份 任务 ， 原 有 任 
务 和 新 任务 哪个 先 执 行 完 就 把 另外 一 个 kill 掉 ， 这 就 是 经 常 在 JobTracker 页 面 看 到 任务 执行 成 
功 、 但 是 总 有 些 任务 被 ll 的 原因 。 

















MapReduce 将 待 执行 作业 分 割 成 一 些小 任务 ， 然 后 并 行 运行 这 些 任 务 ， 提 高 作业 运行 的 
效率 ， 使 作业 的 整体 执行 时 间 少 于 顺序 执行 的 时 间 。 但 很 明显 ， 运 行 缓慢 的 任务 〈 可 能 因为 
配置 问题 、 硬 件 问 题 或 CPU 负载 过 高 ) 将 成 为 MapReduce 的 性 能 瓶颈 。 因 为 只 要 有 一 个 运行 
缓慢 的 任务 ， 整 个 作业 的 完成 时 间 将 被 大 大 延长 。 这 个 时 候 就 需要 采用 推测 式 执行 来 避免 出 
现 这 种 情况 。 当 JobTracler 检 测 到 所 有 任务 中 存在 运行 过 于 缓慢 的 任务 时 ， 就 会 启动 另 一 个 
相同 的 任务 作为 备份 。 原 始 任务 和 备份 任务 中 只 要 有 一 个 完成 ， 另 一 个 就 会 被 中 止 。 推 测 式 
执行 的 任务 只 有 在 一 个 作业 的 所 有 任务 开始 执行 之 后 才 会 启动 ， 并 且 只 针对 运行 一 段 时 间 之 
执行 速度 慢 于 整个 作业 的 平均 执行 速度 的 情况 。 
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测 式 执行 在 默认 情况 下 是 启用 的 。 这 种 执行 方式 有 一 个 很 明显 的 缺陷 ， 对 于 由 于 代码 
缺陷 导致 的 任务 执行 速度 过 慢 ， 它 所 启用 的 备份 任务 并 不 会 解决 问题 。 除 此 之 外 ， 因 为 推测 
式 执 行 会 启动 新 的 任务 ， 所 以 这 种 执行 方式 不 可 避免 地 会 增加 集群 的 负担 。 所 以 在 利 
Hadoop 集 群 运行 作业 的 时 候 可 以 根据 具体 情况 选择 开启 或 关闭 推测 式 执行 策略 〈 通 过 设置 


mapred.map.tasks.speculative.execution 和 mapred.reduce.tasks.speculative.execution 属 性 的 值 来 
























































为 Map 和 Reduce 任 务 开启 或 关闭 推测 式 执行 策略 ) 。 











6.5.2 ”任务 JVM 习 


ia 














在 本 章 图 6-1 中 可 以 看 出 ， 不 论 是 Map 任 务 还 是 Reduce 任 务 ， 都 是 在 TaskTracker 节 点 上 的 
Java EML JVM) 中 运行 的 。 当 TaskTracker 被 分 配 一 个 任务 时 ， 就 会 在 本 地 启动 一 个 新 的 
Java 虚 拟 机 来 运行 这 个 任务 。 对 于 有 大 量 零碎 输入 文件 的 Map 任 务 而 言 ， 为 每 一 个 Map 任 务 
启动 一 个 Java 虚 拟 机 这 种 做 法 显然 还 有 很 大 的 改善 空间 。 如 果 在 一 个 非常 短 的 任务 结束 之 后 
让 后 续 的 任务 重用 此 Java 虚 拟 机 ， 这 样 就 可 以 省 下 新 任务 启动 新 的 Java 虚 拟 机 的 时 间 ， 这 就 
是 所 谓 的 任务 JVM 重 用 。 需 要 注意 的 是 ， 虽 然 一 个 TaskTracker 上 可 能 会 有 多 个 任务 在 同时 运 
行 ， 但 这 些 正在 执行 的 任务 都 是 在 相互 独立 的 JVM 上 的 。TaskTracker 上 的 其 他 任务 必须 等 
待 ， 因 为 即使 启用 JVM 重 用 ，JVM 也 只 能 顺序 执行 任务 。 































































































控制 JVM 重 用 的 属性 是 mapred.job.reuse.jvm.num .tasks。 这 个 属性 定义 了 单个 JVM 上 运 








行 任务 的 最 大 数目 ， 默 认 情况 下 是 1， 意 味 着 每 个 JVM 上 运行 一 个 任务 。 可 以 将 这 个 属性 设 
置 为 一 个 大 于 1 的 值 来 启用 JVM 重 用 ， 也 可 以 将 此 属性 设 为 -1， 表 明 共 享 此 JVM 的 任务 数目 不 
受 限 制 。 



































ren 





6.5.3” 跳 过 坏 记录 


Ey 


MapReducef 

















不 会 考虑 到 数据 集 


处 理 数据 集中 的 某 个 








是 由 于 存在 这 





运行 











没有 其 他 坏 记 录 。 











就 是 Hadoop 中 





(这 由 mapred.map.max.attemps 和 ma 
略 模式 能 够 检测 并 忽 
SkipBadRedcord 类 单 着 


中 


代码 缺陷 ， 旧 
会 失败 ， 最 终 也 会 导致 整个 
任务 是 无 济 于 事 


所 
接 跳 过 去 (由 于 数据 


的 每 一 和 


待定 记录 





He fe, t 
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5 这 种 机 制 仅 适 用 








略 的 错误 记录 数目 。 





处 理 的 数据 集 非常 庞大 ， 用 











是 某 些 坏 的 记录 ) 。 所 以 ， 
{RR 


由 于 坏 数据 导致 任务 抛 出 的 








3 难 的 一 件 事 | 














ay 


=I. 


ler 会 重新 运行 该 任务 

















于 检测 个 别 错误 记录 。 如 果 增 加 
red.reduce.max.attemps 两 个 属性 决定 ) ， 可 以 增加 忽 
为 Map 和 Reduce 任 务 启 月 
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的 工作 方式 可 以 看 出 ， 忽 略 模式 











找 出 这 个 坏 记录 ， 然 后 在 程序 中 
清 ， 况 且 并 不 能 保证 


户 在 基于 MapReduce 编 写 处 理 程序 时 可 能 并 
数据 格式 和 字段 〈 特 兄 
时 可 能 会 崩溃 。 这 个 时 
使 重新 执行 4 次 默认 
E 业 失败 。 所 以 针对 这 币 
I 果 想 要 在 庞大 的 数据 集中 
添加 相应 的 处 理 代码 或 直接 除去 这 条 坏 记录 ， 显 然 也 是 很 
以 最 好 的 办 法 就 是 在 当前 
巨大 ， 忽 略 这 种 极 少数 
的 忽略 模式 〈skipping 模 式 ) 。 
它 会 将 自己 正在 处 理 
先前 任务 报告 的 记录 
略 一 个 错误 记录 ， 因 











用 户 代码 在 


和 使 MapReduce 有 错误 处 理 机 制 ， 但 
最 大 重新 执行 次 数 ) ， 这 个 





任务 仍然 
异常 ， 重 新 








代码 对 应 的 任务 执行 期 间 ， 遇 到 坏 记 录 时 就 直 
的 坏 记录 是 可 以 接受 的 ) ， 然 后 继续 执行 ， 这 


忽略 模式 启动 时 ， 如 果 任 务 连 续 失败 两 次 ， 
的 记录 告诉 TaskTracker， 然 后 TaskTrac 
时 直接 跳 过 。 从 忽略 模式 


并 在 运行 到 


试 次 数 最 大 值 





博 况 下 忽略 模式 是 关闭 的 ， 可 以 使 


已 。 


























6.5.4 ”任务 执行 





Hadoop 能 够 为 执 
知道 自己 所 处 理 文件 
TaskTracker 时 ， 就 会 } 


A 





行 Map 或 Reduce 任 务 
的 执行 环境 。 图 6-2 殉 
的 是 配置 信息 ) 。 


M 
过 





japred job, 


当 Job 启 动 
是 ${mapred.local. 
目录 ， 路 径 是 在 本 
上 jobcache/$jol 





aN 


tt, TaskTrac 
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Tt 
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业 的 配置 文件 发 送 








中 





了 每 个 Task 执 行 时 使 


我 们 知道 ，TaskTracker 是 在 本 节点 单独 的 JVM 
9。 所 以 启动 Map 或 Reduce Task 时 ， 会 直接 从 父 Tas 


行 任务 的 TaskTracker 提 供 执行 所 需要 的 环境 信息 。 例 如 ，Map 任 务 可 以 
的 名 称 、 自 己 在 作业 任 
Kf 


地 。 从 本 章 前 面 的 介绍 


务 群 了 


给 Tas 


的 ID 号 等 。JobTracler 分 配 任务 给 
kTracker, TaskTracker 将 此 文件 保存 在 本 

上 以 子 进程 的 形式 执 
Tracker 处 继承 任务 
的 本 地 参数 〈 从 作业 配置 中 获取 ， 返 回 给 Task 
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图 6-2 Task 的 本 地 参数 表 


ker 会 根据 配置 文 


ir}/maskKfTraclker/。 在 这 个 目录 下 有 两 个 子 目 录 : 一 个 是 作业 
也 目录 后 面 加 J 
bid/， 在 这 个 


上 archive/: 





目录 下 保存 了 Job 








为 暂 存 空间 ， 

JAR 包 的 目录 
地 通 
eA 





于 任务 
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P 包 含 本 地 化 的 


任务 作业 配置 文 


之 间 





展开 的 
RESID A) 
He, FERC 








的 文件 共享 ， 此 目录 通过 job.local.dir 参 数 暴露 给 
保存 作业 的 JAR 文 件 和 
的 作业 配置 文件 ) 和 


件 创建 Job 和 本 地 缓存 。TaskTracker 的 本 地 目录 
的 分 布 式 缓存 
一 个 是 本 地 Job 目 录 ， 路 径 是 在 本 地 目录 后 面 加 
执行 的 共享 目录 (各 个 任务 可 以 使 用 这 个 空间 作 
户 ) 、 存 放 
JAR 文 件 ) 、 一 个 XML 文件 〈 此 XML 文件 是 本 
的 任务 目录 〈 每 个 任务 都 有 一 个 这 样 的 目录 ， 目 


FP 间 结 果 的 输出 文件 目录 、 任 务 当前 工作 目录 和 















































任务 临时 目录 ) 。 








关于 任务 的 输出 文件 需要 注意 的 是 ， 应 该 确保 同一 个 任务 的 多 个 实例 不 会 尝试 向 同一 个 
文件 进行 写 操作 。 因 为 这 可 能 会 存在 两 个 问题 ， 第 一 个 问题 是 ， 如 果 任务 失败 并 被 重 试 ， 那 











么 会 先 删除 第 一 个 任务 的 旧 文件 ， 第 二 个 问题 是 ， 在 推测 式 执行 的 情况 下 同一 任务 的 两 个 实 
例会 向 同一 个 文件 进行 写 操作 。Hadoop 通 过 将 输出 写 到 任务 的 临时 文件 夹 来 解决 上 面 的 两 个 
问题 。 这 个 临时 目录 是 {mapred.out put.dir}/_temporary/${mapred.taskid} 。 如 果 任 务 执行 成 
功 ， 目录 的 内 容 〈 任 务 输出) 就 会 被 复制 到 此 作业 的 输出 目录 (${mapred.out.put.dir} ) 。 因 
此 ， 如 果 一 个 任务 失败 并 重 试 ， 第 一 个 任务 尝试 的 部 分 输出 就 会 被 消除 。 同 时 推测 式 执行 时 
的 备份 任务 和 原始 任务 位 于 不 同 的 工作 目录 ， 它 们 的 临时 输出 文件 夹 并 不 相同 ， 只 有 先 完 成 
的 任务 才 会 把 其 工作 目录 中 的 输出 内 容 传 到 输出 目录 中 ， 而 另外 一 个 任务 的 工作 目录 就 会 被 
丢弃 。 






















































































6.6 本 章 小 结 


本 章 从 MapReduce 程 序 中 的 JobClientrun， 
， 并 分 析 了 流程 图 
MapReduce 的 执行 流程 简单 概括 如 下 : 
其 启动 。 启 动 
EFE 业 资源 复制 
初始 化 作业 ， 再 从 HDFS 作 业 资 源 中 获取 


FER 
程 。 
Hadoop 集 群 上 将 
作业 执行 需要 的 人 














的 四 











个 核心 实体 ， 

















户 作 





结合 实 


ob (conf) 开始 ， 给 出 了 MapReduce 执 行 的 流 


代码 介绍 了 MapReduce 执 行 的 详细 流 
执行 JobClient.runJob (conf) 代码 会 在 


i 
业 








到 HDFS 上 ， 然 后 将 人 


之 后 JobClient 实 例会 


JobTracker 获 取 JobId， 而 且 客 户 端 会 将 
提交 给 JobTracker。JobTracker 在 本 地 
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Ey 








作业 输入 的 分 特 







雪 息 ， 根 据 这 些 信息 JobTracker 将 作 


Fits 


业 分 割 成 多 个 任务 ， 然 后 分 配给 在 与 JobTracker 心 跳 通信 中 请 求 任务 的 TaskTracker。 





Te 
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SI 


介绍 完 MapReduce 作 | 
制 ， 分 别 是 错误 处 理 机 
MapReduce 会 将 故障 节点 ] 


行 。 在 作业 调度 机 制品 


if 




















目 将 资源 公平 地 分 到 


本 章 最 后 介绍 了 MapReduce 中 两 个 流程 的 
中 ， 从 代码 入 手 介 绍 了 Ma 
概括 为 ， 在 Map 端 ， 当 缓冲 
再 按照 划分 将 数据 写 入 文人 
TaskTracker 先 从 执行 Map 的 TaskTracker 节 点 上 复制 Map 输 出 ， 然 后 对 
Reduce 处 理 。 关 于 任务 执行 则 主要 介绍 了 三 个 
和 执行 环境 。 推 测 式 执行 是 指 JobTracker 在 作业 
Full 
P 较 快 完成 的 结果 。JVM 重 月 
JVM 上 直接 执行 ， 这 样 节省 了 JVM 启 动 的 时 























慢 ， 为 了 不 影响 整个 f 
执行 ， 最 后 保留 二 者 中 





不 是 启动 新 的 JVM， 而 是 在 先前 任务 执行 完毕 


户 





STracler 接 收 到 新 的 任务 之 后 会 先 从 HDFS 上 获 
分 片 的 输入 ， 然 后 在 本 地 启动 一 个 JVM 并 





的 请 





AYES 














f 执 行 任务 。 任 务 结束 之 后 将 结果 写 回 HDFS。 


# 细 流程 后 ， 本 章 还 
调度 机 制 。 在 错误 处 理 机 制 中 ， 如 果 遇 到 硬件 故障 ， 
上 的 任务 分 配给 其 他 节点 
Ph， 主 要 介绍 了 公平 调度 器 。 这 种 调度 策略 能 够 








E 业 资源 ， 包 括 作业 配置 信息 和 本 作业 

















重点 介绍 了 MapReduce 中 采用 








如 果 遇 到 任务 失败 ， 则 会 重 


按照 提交 作 


处 理 。 





























的 作业 池 中 ， 以 达到 用 户 
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p 端 和 Reduce 端 的 shuffle 





， 然 后 进行 merge 并 ; 


的 完成 进度 ， 会 启动 和 





1， 分 别 是 shuffle 和 任务 执行 。 在 s 
过 程 及 shuffle 的 优化 。 
区 内 容 达 到 阔 值 时 Map 写 出 内 


任务 执行 
执行 过 程 中 ， 发 现 某 个 作业 执行 速度 过 
MEY 





公平 共享 整个 集群 的 目的 。 


uffle 





shuffle 的 过 程 可 以 
写 出 时 按照 key 值 对 数据 排序 ， 


Ee 


Fo 


Ha RX Reduce. 7EReduce sii, 


非 序 合并 ， 最 后 进行 
是 推测 式 执行 、JVM 重 





SAN, adsl 














完全 相同 的 备份 作业 让 TaskTracker 
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主要 是 针对 比较 零碎 的 任务 ， 对 于 新 任务 


间 。 在 
夹 的 使 


任务 执行 环境 




















情况 。 





P 主 要 介绍 了 任务 执行 参数 的 内 容 和 任务 目录 结构 ， 以 及 任务 临时 文件 
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本 章 内 容 


ià 


IO 操作 中 的 数据 检查 


数据 的 压缩 





数据 的 IO 中 序列 化 操作 


针对 Mapreduce 的 文件 类 


Hadoop 工 程 下 与 IO 相关 的 包 如 下 : 





org. apache.hadoop.io 


org. apache.hadoop.io.compress 


org. apache.hadoop.io.file .tfile 


org. apache.hadoop.io.serializer 





org. apache.hadoop.io.serializer.avro 


ER T org.apache.hadoop .io.serializer.avro, 




















级 项 目 ) 提供 数据 序列 化 操作 外 ， 其 余 都 是 














Hadoop IO 操作 


F 为 Avro〈 与 Hadoop 相 关 的 Apache 的 另 一 个 项 





于 Hadoop 的 IO 操作 。 


除 此 以 外 ， 部 分 fs 类 中 的 内 容 也 与 本 章 有 关 ， 所 以 本 章 也 会 提 及 一 些 ， 不 过 大 都 是 一 些 























算 机 





的 东西 ， 由 于 对 HDFS 的 介绍 不 是 本 章 的 重点 ， 在 此 不 会 详 述 。 





可 以 说 ，Hadoop 的 IO 由 传统 的 IO 操作 而 来 ， 但 是 又 有 些 不 同 。 第 一 ， 在 我 们 常见 的 计 
系统 中 ， 数 据 是 集中 的 ， 无 论 多 少 电影 、 音 乐 或 者 Word 文 档 ， 它 只 会 存在 于 一 台 主 机 


























中 ， 而 Hadoop 则 不 同 ，Hadoop 系 统 中 的 数据 经 常 是 分 散在 多 个 计算 机 系统 中 的 ;第 二 ， 
股 而 言 ， 传 统计 算 机 系统 中 的 数据 量 相对 较 小 ， 大 多 在 GB 级 别 ， 而 Hadoop 处 理 的 数据 经 常 











变化 就 会 带 来 问题 ， 这 两 个 变化 带 给 我 们 的 问题 就 是 Hadoop 的 IO 操作 不 仅 要 考虑 本 地 
主机 的 IO 操作 成 本 ， 还 要 考虑 数据 在 不 同 主机 之 间 的 传输 成 本 。 同 时 Hadoop 的 数据 寻 址 方 
式 也 要 改变 ， 才 能 应 对 庞大 数据 带 来 的 寻 址 压力 。 





虽说 Hadoop 的 IO 操作 与 传统 方式 已 经 有 了 一 些 变化 ， 但 是 仍 未 脱离 传统 的 数据 MO 操 
作 ， 因 此 如 果 热 悉 传统 的 IO 操作 ， 你 会 发 现 本 章 的 内 容 非 常 简单 。 














7.1 LO 操作 中 的 数据 检查 





Apache 的 Hadoop 官 网 上 有 一 个 名 为 Sort900 的 具体 的 Hadoop 配 置 实例 ， 所 谓 Sort900 就 是 


在 900 台 主机 上 对 9TB 的 数据 进行 排序 。 一 般 而 言 ， 在 Hadoop 引 























和 群 的 实际 应 用 中 ， 主 机 的 数 

















目 是 很 大 的 ，Sort900 使 用 了 900 台 主机 ， 而 淘宝 目前 则 使 用 了 1100 台 主机 来 存储 他 们 的 数据 
〈 据 说 计划 扩充 到 1500 台 ) 。 在 这 么 多 的 主机 同时 运行 时 ， 你 会 发 现 主机 损坏 是 非常 常见 
的 ， 这 就 会 涉及 很 多 程序 上 的 预 处 理 了 。 对 于 本 章 而 言 ， 就 体现 在 Hadoop 中 进行 数据 完整 性 




















检查 的 重要 性 上 。 





校 验 和 方式 是 检查 数据 完整 性 的 重要 方式 。 一 般 会 通过 对 上 
况 ， 如 果 两 者 不 同 则 说 明 数据 已 经 损坏 。 比 如 ， 在 传输 数据 前 4 














新旧 校 验 和 来 确定 数据 情 
成 了 一 个 校 验 和 ， 将 数据 传 


输 到 目的 主机 时 再 次 计算 校 验 和 ， 如 果 两 次 的 校 验 和 不 同 ， 则 说 明 数 据 已 经 损坏 。 或 者 在 系 
统 启动 时 计算 校 验 和 ， 如 果 其 值 和 硬盘 上 已 经 存在 的 校 验 和 不 同 ， 那 么 也 说 明 数 据 已 经 损 





坏 。 校 验 和 不 能 恢复 数据 ， 只 能 检测 错误 。 

















Hadoop 采 用 CRC-32 (Cyclic Redundancy Check-- 循 环 元 余 校 验 ，32 指 生成 的 校 验 和 是 
32 位 的 ) 的 方式 检查 数据 完整 性 。 这 是 一 种 非常 常见 的 校 验 和 验证 方式 ， 检 错 能 力 强 ， 开 销 





小 ， 易 于 实现 。 如 果 大 家 有 兴趣 可 以 自行 查阅 资料 了 解 。 




















Hadoop 采 用 HDFS 作 为 默认 的 文件 系统 ， 因 此 我 们 需要 讨论 两 方面 的 数据 完整 性 : 











1) 本 地 文件 系统 的 数据 完整 性 ; 





2) HDFS 的 数据 完整 性 。 
1. 对 本 地 文件 1/O 的 检查 


在 Hadoop 中 ， 本 地 文件 系统 的 数据 完整 性 由 客户 端 负 责 。 
行 校 验 和 的 处 理 。 








点 是 在 存储 和 读 取 文 件 时 进 


有 具体 做 法 是 ， 每 当 Hadoop 创 建文 件 4 时 ，Hadoop 就 会 同时 在 同一 文件 夹 下 创建 隐藏 文 


件 .a.crc， 这 个 文件 记录 了 文件 a 的 校 验 和 。 针 对 数据 文件 的 大 小 ， 每 512 个 字 节 Hadoop 就 会 
E 成 一 个 32 位 的 校 验 和 “4 字 节 〉 ， 你 可 以 在 src/core/core-defaultxml 中 通过 修改 
io.bytes.per.checksum 的 大 小 来 修改 每 个 校 验 和 所 针对 的 文件 的 大 小 。 如 下 所 示 : 


Li 








= 

<property> 

<name>io.bytes.per.checksum</name> 

<value>512</value> 

<description>The number of bytes per checksum.Must not be 
larger than io.file. 

buffer.size.</description> 

</property> 


| | 





一 般 来 说 ， 主 流 的 文件 系统 都 能 在 一 定 程度 上 保证 数据 的 完整 性 ， 因 此 有 可 能 你 并 不 需 
要 Hadoop 的 这 部 分 功能 。 如 果 不 需 要 ， 你 可 以 通过 修改 文件 src/core/core-defaultxml 中 
fs.file.impl 的 值 来 禁用 校 验 和 机 制 ， 如 下 所 示 : 


Mi 
<property> 
<name>fs.file.impl</name> 
<value>org.apache.hadoop.fs.LocalFileSystem</value> 
<description>The FileSystem for file: uris.</description> 
</property> 
一 















































把 值 修改 为 org.apache.hadoop.fs.RawLocalFileSy stem 即 可 禁用 校 验 和 机 制 。 

















如 果 你 只 想 在 程序 中 对 某 些 读 取 禁用 校 验 和 检验 ， 那 么 你 可 以 声明 RawLocalFileSy stem 
实例 。 例 如 : 


5 
FileSystem fs=new RawFileSystem () ; 
Fs.initialize (null, conf); 


二 一 











在 Hadoop 中 ， 校 验 和 系统 单独 为 一 类 一 org.apache.hadoop.fs.ChecksumFileSy stem ， 当 需 
要 校 验 和 机 制 时 ， 你 可 以 很 方便 地 调用 它 来 为 你 服务 。 





























引用 方法 为 : 











一 


FileSystem rawFS= 





FileSystem checksumFS=new ChecksumFileSystem (rawFS) ; 

















的 子 类 ， 其 继承 关系 如 下 : 


上 实 上 ，org.apache.hadoop.fs.ChecksumFileSystem 是 org.apache.hadoop.fs.FileSy stem F 


| | 


java.lang 


.Object 

-org.apache.hadoop. 
-org.apache.hadoop. 
-org.apache.hadoop. 
-org.apache.hadoop. 
-org.apache.hadoop. 


conf.Configured 
fs.FileSystem 
fs.FilterFileSystem 
fs.ChecksumFileSystem 
fs.LocalFileSystem 














如 果 大 家 对 这 些 类 的 作用 感 兴趣 ， 可 以 查阅 Hadoop 的 app 文 档 ， 地 址 为 





http: //hadoop.apache.org/common/docs/current/api/index.htm 1. 








读 取 文件 时 ， 如 果 ChecksumFileSy stem 检 测 到 错误 ， 便 会 调用 reportChecksumFailure。 
这 是 一 个 布尔 类 型 的 函数 ， 此 时 ，LocalFileSystem 会 把 这 些 问 题 文件 及 其 校 验 和 一 起 移动 到 
同一 台 主 机 的 次 级 目录 下 ， 命 名 为 bad_files。 一 般 而 言 ， 使 用 者 需要 经 常 处 理 这 些 文件 。 





























2. 对 HDFS 的 IO 数据 进行 检查 


一 般 来 说 ，HDFS 会 在 三 种 情况 下 检验 校 验 和 : 


(1) DataNo 


e 接 收 数据 后 存储 数据 前 


要 了 解 这 种 情况 ， 大 家 先 要 了 解 DataNode 一 般 会 在 什么 时 候 接收 数据 。 它 接收 数据 一 般 


有 两 种 情况 : 一 






































户 从 客户 端 上 传 数据 ， 二 是 DataNode 从 其 他 DataNode 上 接收 数据 。 一 
股 来 说 ， 客 户 端 往往 也 是 DataNode， 不 过 有 时 候 客户 端 仅仅 是 客户 端 而 已 ， 并 不 是 Hadoop 
集群 中 的 节点 。 当 客户 端 上 传 数据 时 ，Hadoop 会 根据 预定 规则 形成 一 条 数据 管线 。 图 7-1 就 











是 一 个 典型 的 副本 管线 〈 数 据 备份 为 3) 。 数 据 0 是 原 数据 ， 数 据 1、 数 据 2、 数 据 3 是 备份 。 


2 = 


口 代表 主机 [rätt 


图 7-1 数据 管线 及 数据 备份 流程 图 





数据 将 按 管线 流动 以 完成 数据 的 上 传 及 备份 过 程 ， 图 7-1 中 顺序 就 是 先 在 客户 端 这 个 节点 
上 保存 数据 〈 在 这 张 图 上 ， 客 户 端 也 是 Hadoop 集 群 中 的 一 个 节点 ) 。 注 意 这 个 流动 的 过 程 ， 
备份 1 在 接收 数据 的 同时 也 会 把 接收 到 的 数据 发 送 给 备份 ?所 在 的 机 器 ， 因 此 如 果 过 程 执行 顺 
利 ， 三 个 备份 形成 的 时 间 相 差不多 〈 相 对 依次 备份 而 言 ) 。 这 里 面 涉及 一 个 负载 均衡 的 问 
题 ， 不 过 这 个 问题 不 是 本 章 的 这 里 不 再 详 述 。 我 们 在 这 里 只 关心 数据 完整 性 的 问题 。 
在 传输 数据 的 最 开始 阶段 ，Hadoop 会 简单 地 检查 数据 块 的 完整 性 信息 ， 这 一 点 从 DataNode 
的 源 代 码 也 可 以 看 出 。 下 面 是 DataNode 在 各 个 待 传输 节点 之 间 传 输 数据 的 主要 函数 
transferBlock (Block block, DataNodeInfo xferTargets[]) ， 其 中 检查 的 主要 代码 如 下 : 


和 
// 检 查 数据 块 是 否 真正 存在 
if (! data.isValidBlock (block) ) { 


return; 


} 

// 检 查 NameNode 上 数据 块 长 度 和 硬盘 数据 块 长 度 是 否 匹配 
long onDiskLength=data.getLength (block) ; 
if (block.getNumBytes () >onDiskLength) { 





























点 























return; 
} 
1 


上 面 简单 地 检查 之 后 ， 就 开始 向 各 个 DataNode 传 输 数 据 ， 在 传输 过 程 中 会 一 同 发 送 数据 
头 信息 ， 包 括 块 信息 、 源 DataNode 信 息 、 备 份 个 数 、 校 验 和 等 ， 可 参考 DataTransfer 中 run 函 
数 的 部 分 代码 : 


aall 
// 数 据 头 信息 
out .writeShort (DataTransferProtocol.DATA_TRANSFER_VERSION) ; 
// 数 据 传输 版 本 
out .writeByte (DataTransferProtocol.OP_WRITE BLOCK) ; 
out.writeLong (b.getBlockId © ) ; // 块 ID 
out.writeLong (b. getGenerationStamp O ) //ÆR TAL AR 
srcNode.write (out); // 写 入 源 DataNode 信 息 
out.writeInt (targets.length-1) ; // 备 份 个 数 
for (int i=l; i<targets.length; i++) { 
targets[i].write (out) ; 
} 
blockSender.sendBlock (out, baseStream, null); // 数 据 块 和 校 验 和 


COC 

















Hadoop 不 会 在 数据 每 流动 到 一 个 DataNode 时 都 检查 校 验 和 ， 它 只 会 在 数据 流动 到 最 后 
一 个 节点 时 才 检 验 校 验 和 。 也 就 是 说 Hadoop 会 在 备份 3 所 在 的 DataNode 接 受 完 数据 后 检查 校 
验 和 。 具 体 核心 代码 如 BlockSenderjava 中 的 部 分 代码 : 





| 
// 通 过 设置 的 pataNode 序 列 流 正 常 传输 数据 
IOUtils.readFully (blockIn, buf, dataoff, len) ; 
// 传 输 结 束 后 ， 根 据 配 置 的 verifychecksum 来 检测 数据 完整 性 
if (verifyChecksum) { 





for (int i=0; i<numChunks; i++) { 

checksum.reset () ; 

int dLen=Math.min (dLeft, bytesPerChecksum) ; 
checksum.update (buf, dOff, dLen) ; 

if (! checksum.compare (buf, coff) ) { 

throw new ChecksumException ("Checksum failed at"+ 
(offset+len-dLeft) , len); 


这 就 是 从 客户 端 上 传 数据 时 Hadoop 对 数据 完整 性 检测 进行 的 相关 处 理 。 





DataNode 从 其 他 DataNode 接 收 数据 时 也 是 同样 的 处 理 过 程 。 


(2) 客户 端 读 取 DataNode 上 的 数据 时 











Hadoop 会 在 客户 端 读 取 DataNode 上 的 数据 时 ， 使 用 DFSClient 中 的 read 函 数 先 将 数据 读 
入 到 用 户 的 数据 缓冲 区 ， 然 后 再 检验 校 验 和 。 具 体 代码 片段 如 下 : 



































i 
// 读 取 数 据 到 缓冲 
int nRead=super.read (buf, off, len) ; 
if (dnSock! =null& &gotEOS&&! eosBefore& &nRead>=0 
& &needChecksum () ) { 

// 检 查 校 验 和 
checksumOk (dnSock) ; 
} 


和 


区 





(3) DataNode 后 台 守 护 进程 的 定期 检测 


DataNode 会 在 后 台 运 行 DataBlockScanner， 这 个 程序 会 定期 检测 此 DataNode 上 的 所 有 数 
据 块 。 从 DataNode.java 中 startDataNode 函 数 的 源 代码 就 可 以 看 出 : 





| 
// 根 据 配 置信 息 初始 化 DataNode 上 的 定期 数据 扫描 器 
String reason=null; 
if (conf.getInt ("dfs.DataNode.scan.period.hours", 0) <0) { 
reason="verification is turned off by configuration"; 
}else if (! (data instanceof FSDataset) ) { 
reason="verifcation is supported only with FSDataset"; 
} 
if (reason==null) { 
blockScanner=new DataBlockScanner (this, (FSDataset) data, 
conf); 
jelse{ 
LOG.info ("Periodic Block Verification is disabled 
because"t+reasont+".") ; 


/ /将 扫描 服务 加 入 DataNode 服 务 中 


this.infoServer.addServlet (null, "/blockScannerReport", 





DataBlockScanner.Servlet.class) ; 


this.infoServer.start O ; 
= 


3. 数 据 恢复 策略 














在 Hadoop 上 进行 数据 读 操作 时 ， 如 果 发 现 某 数据 块 失效 ， 读 操作 涉及 的 用 户 、 
DataNode 和 NameNode 都 会 尝试 来 恢复 数据 块 ， 恢 复 成 功 后 会 设置 标签 ， 防 止 其 他 角色 重 
恢复 。 下 面 以 DataNode 端 的 恢复 为 例 说 明 恢 复数 据 块 的 详细 步骤 ， 代 码 参见 DataNode 中 的 
TecoverBlock 函 数 。 























(1) 检查 已 恢复 标签 


检查 一 致 的 数据 块 恢复 标记 ， 如 果 已 经 恢复 ， 则 直接 跳 过 恢复 阶段 。 


/ /如果 数据 块 已 经 被 回复 ， 则 直接 跳 过 恢复 阶段 

synchronized (ongoingRecovery) { 

Block tmp=new Block () ; 

tmp .set (block.getBlockId () , block.getNumBytes () , 
GenerationStamp.WILDCARD_ STAMP) ; 

if (ongoingRecovery.get (tmp) ! =null) { 

String msg="Block"+block+"is already being recovered, "+" 

ignoring this request to recover it."; 

LOG. info (msg) ; 

throw new IOException (msg) ; 

} 

ongoingRecovery.put (block, block) ; 

} 


SSS 


D 统计 各 个 备份 数据 块 恢复 状态 


在 这 个 阶段 ，DataNode 会 检查 所 有 出 错 数据 块 备份 的 DataNode， 查 看 这 些 节点 上 数据 
块 的 恢复 信息 ， 然 后 将 所 有 版 本 正确 的 数据 块 信息 、DataNode 信 息 作 为 一 条 记录 保存 在 数据 
块 记录 表 中 。 








E | 


// 检 查 每 个 数据 块 备份 DataNode 


for (DataNodeID id: datanodeids) { 


try{ 

// 获 取 数 据 块 信息 

BlockRecoveryInfo info=datanode.startBlockRecovery (block) ; 
// 数 据 块 已 不 存在 

if (info==null) { 

continue; 


} 

/ /数据 块 版 本 较 晚 

if (info.getBlock () .getGenerationStamp () < 
block.getGenerationStamp () ) { 

continue; 

} 

/ /正确 版 本 数据 块 的 信息 保存 起 来 

blockRecords.add (new BlockRecord (id, datanode, info) ) ; 

if (info.wasRecoveredOnStartup () ) { 

rwrCount++; // 等 待 回复 数 

perset 

rbwCount++; // 正 在 恢复 数 

} 

}catch (IOException e) { 

++errorCount; // 出 错 数 

} 

} 


| | 








(3) 找 出 所 有 正确 版 本 数据 块 中 最 小 长 度 的 版 本 














在 这 一 步骤 中 ，DataNode 会 逐个 扫描 上 一 阶段 中 保存 的 数据 块 记录 ， 首 先 判断 当前 副本 























是 否 正在 恢复 ， 如 果 正 在 恢复 则 跳 过 ， 如 果 不 是 正在 恢复 并 且 配置 参数 设置 了 恢复 需要 保持 
原 副 本 长 度 ， 则 将 恢复 长 度 相同 的 副本 加 入 待 恢复 队列 ， 和 否则 将 所 有 版 本 正确 的 副本 加 入 待 
恢复 队列 。 


for (BlockRecord record: blockRecords) { 

BlockRecoveryInfo info=record.info 

if (! shouldRecoverRwrs& &info.wasRecoveredOnStartup () ) { 
continue; 

} 

if (keepLength) { 

if (info.getBlock © .getNumBytes () ==block.getNumBytes () ) 
{syncList.add (record) ; } 

jelse{ 

syncList.add (record) ; 


if (info.getBlock () .getNumBytes () <minlength) { 
minlength=info.getBlock () .getNumBytes O) ; 

} 

} 

} 


一 


(4) 副本 同步 


如 果 需 要 保持 副本 长 度 ， 那 么 直接 同步 长 度 相同 的 副本 即 可 ， 和 否则 以 长 度 最 小 的 副本 同 
步 其 他 副本 。 














if (! keepLength) { 

block.setNumBytes (minlength) ; 

} 

return syncBlock (block, syncList, targets, closeFile) ; 


SSS SSS S=SSSSSSSSSSSSS_A 

与 读 取 本 地 文件 的 情况 相同 ， 用 户 也 可 以 使 用 命令 来 禁用 检验 和 检验 (从 前 面 的 代码 
也 可 以 看 出 ， 通 常 在 检查 校 验 和 之 前 都 有 needChecksum 等 选项 ) 。 有 两 种 方法 可 以 达到 这 个 
目的 。 











TH 















































一 个 是 在 使 用 open〈) 读 取 文件 前 ， 设 置 FileSystem 中 的 setVerify Checksum 值 为 false 。 





Eee 才 
FileSystem fs=new FileSystem () ; 
Fs.setVerifyChecksum (false) ; 


一 














另 一 个 是 使 用 shell 命 令 ， 比 如 get 命 令 和 copyToLocal 命 令 。 

















get 命 令 的 使 用 方法 如 下 所 示 : 





[| 
hadoop fs-get[-ignoreCrc] [-cre]<srce><localdst> 

和 
举 个 例子 : 


_ es | 
hadoop fs-get-ignoreCre input~/Desktop/ 


二 一 














get 命 令 会 复制 文件 到 本 地 文件 系统 。 可 用 -ignorecrc 选 项 复制 CRC 校 验 失败 的 文件 ， 或 
者 使 用 -crc 选 项 复制 文件 ， 以 及 CRC 信 息 。 









































copyToLocal 的 使 用 方法 如 下 所 示 : 





— sst 
hadoop fs-copyToLocal[-ignorecrc] [-crc] URI<localdst> 
全 


再 举 个 例子 : 


| 
hadoop fs-copyToLocal-ignoreCrc input~/Desktop 
| 





除了 要 限定 目标 路 径 是 一 个 本 地 文件 外 ， 其 他 和 get 命 令 类 似 。 

















禁用 校 验 和 检验 的 最 主要 目的 并 不 是 节约 时 间 ， 用 于 检验 校 验 和 的 开销 一 般 情 况 都 是 可 
以 接受 的 ， 禁 用 校 验 和 检验 的 主要 原因 是 ， 如 果 不 禁 用 校 验 和 检验 ， 就 无 法 下 载 那 些 已 经 损 
坏 的 文件 来 查看 是 否 可 以 挽救 ， 而 有 时 候 即 使 是 只 能 挽救 一 小 部 分 文件 也 是 很 值得 的 。 






























































7.2 数据 的 压缩 





对 于 任何 大 容量 的 分 布 式 存储 系统 而 言 ， 文 件 压缩 都 是 必须 的 ， 文 件 压缩 带 来 了 两 个 好 


处 : 


1) 减少 了 文件 所 需 的 存储 空间 ; 


2) 加 快 了 文件 在 网 络 上 或 磁盘 间 的 传输 速度 。 


Hadoop 关 于 文件 压缩 的 代码 几乎 都 在 package org.apache.hadoop.io.compress 中 。 本 节 的 














内 容 将 会 主要 围绕 这 一 部 分 展开 。 





7.2.1 Hadoop 对 压缩 工具 的 选择 

















有 许多 压缩 格式 和 压缩 算法 是 可 以 应 用 到 Hadoop 中 的 ， 但 是 不 

















同 的 算法 都 有 各 自 的 特 























点 。 表 7-1 是 Hadoop 中 使 用 的 一 些 压缩 算法 ， 表 7-2 是 它们 的 压缩 格式 和 特点 。 





表 7-1 压缩 格式 及 编码 解码 颖 











压缩 格式 Hadoop 压缩 编码 / 解码 器 
DEFLATE org.apache. hadoop io.compress. DefaultCodec 
Gzip org.apache.hadoop.io.compress.GzipCodec 
bzip2 org.apache.hadoop.io.compress. BZip2Codec 
Zlib 





表 7-2 压缩 格式 和 特点 








RARR 算 法 文件 扩展 名 








org.apache.hadoop.io.compress,zlib 





可 分 割 性 





DEFLATE* 





DEFLATE 
DEFLATE 


deflate 






= 
& 








bzip2 | bzip2 | bzip2- | .bz2 | 


是 








DEFLATE 


压缩 一 般 都 是 在 时 间 和 空间 上 的 一 种 权衡 。 一 般 来 说 ， 更 长 的 压缩 时 间 会 节省 更 多 的 空 








间 。 不 同 的 压缩 算法 之 间 有 一 定 的 区 别 ， 而 同样 的 压缩 算法 在 压缩 和 





下 同类 型 的 文件 时 表现 也 


不 同 。jeff 的 试验 比较 报告 中 包含 了 面 对 不 同文 件 在 各 种 要 求 
的 最 佳 压缩 工具 。 如 果 大 家 感 兴趣 可 以 自行 查阅 ， 地 址 为 http 








〈 最 佳 压缩 、 最 快速 度 等 ) 下 


: //compression.ca/act/act- 








summary.htm1《〈 这 个 地 址 是 总 体 评价 ， 此 网 站 还 有 不 同 压 缩 了 





表现 ) 。 


[ 具 面 对 不 同类 型 文件 时 的 具体 


7.2.2 ”压缩 分 割 和 输入 分 割 








压缩 分 割 和 输入 分 割 是 很 重要 的 内 容 ， 比 如 ， 如 果 需 要 处 理 经 Gzip 压缩 后 的 5GB 大 小 的 
文件 ， 按 前 面 介绍 过 的 分 割 方式 ，Hadoop 会 将 其 分 割 为 80 块 〈 每 块 64MB， 这 是 默认 值 ， 可 
以 根据 需要 修改 ) 。 但 是 这 是 没有 意义 的 ， 因 为 在 这 种 情况 下 ，Hadoop 不 会 分 割 存储 Gzip 压 
缩 的 文件 ， 程 序 无 法 分 开 读 取 每 块 的 内 容 ， 那 么 也 就 无 法 创建 多 个 Map 程 序 分 别 来 处 理 每 块 


内 容 。 





















































而 bzip2 的 情况 就 不 一 样 了 ， 它 支持 文件 分 割 ， 用 户 可 以 分 开 读 取 每 块 内 容 并 分 别处 理 
之 ， 因 此 bzip2 压 缩 的 文件 可 分 割 存储 。 





























7.2.3 ”在 MapReduce 程 序 中 使 用 压缩 











在 MapReduce 程 序 中 使 用 压缩 非常 简单 ， 只 需 在 它 进行 Job 配 置 时 配置 好 conf 就 可 以 了 。 











设置 Map 处 理 后 压缩 数据 的 代码 示例 如 下 : 


l= = 
JobConf conf=new Jobconf () ; 
conf.setBoolean ("mapred.compress.map.output", true) ; 


Eee 
设置 output 答 出 压缩 的 代码 示例 如 下 : 


EG 
JobConf conf=new Jobconf () ; 
conf.setBoolean ("mapred.output.compress", true) ; 
conf.setClass ("mapred.output.compression.codec", 
GzipCodec.class, CompressionCodec.class) ; 


El 

对 一 般 情况 而 言 ， 压 缩 总 是 好 的 ， 无 论 是 对 最 终结 果 的 压缩 还 是 对 Map 处 理 后 的 中 间 数 
据 进 行 压缩 。 对 Map 而 言 ， 它 处 理 后 的 数据 都 要 输出 到 硬盘 上 并 经 过 网 络 传输 ， 使 用 数据 压 
缩 一 般 都 会 加 快 这 一 过 程 。 对 最 终结 果 的 压缩 不 单 会 加 快 数据 存储 的 速度 ， 也 会 节省 硬盘 空 
间 。 
































下 面 我 们 做 一 个 实验 来 看 看 在 MapReduce 中 使 用 压缩 与 不 使 用 压缩 的 效率 差别 。 











先 来 叙述 一 下 我 们 的 实验 环境 : 这 是 由 六 台 主 机 组 成 的 一 个 小 集群 (一 台 Master， 三 台 
Salve) 。 输 入 文件 为 未 压缩 的 大 约 为 300MB 的 文件 ， 它 是 由 随机 的 英文 字符 串 组 成 的 ， 每 个 
字符 串 都 是 5 位 的 英文 字母 (大 小 写 被 认为 是 不 同 的 ) ， 形 如 "AdEfr”， 以 空格 隔 开 ， 每 50 个 
一 行 ， 共 50 000 000 个 字符 串 。 对 这 个 文件 进行 WordCount。Map 的 输出 压缩 采用 默认 的 压缩 
算法 ，output 的 输出 采用 Gzip 压缩 方法 ， 我 们 关注 的 内 容 是 程序 执行 的 速度 差别 。 















































执行 压缩 操作 的 WordCount 程 序 与 基本 的 WordCount 程 序 相 似 ， 只 需 在 conf 设 置 时 写 入 以 
下 几 行 代码 : 





| 
conf.setBoolean ("mapred.compress.map.output", true) ; 
conf.setBoolean ("mapred.output.compress", true) ; 
conf.setIfUnset ("mapred.output.compression.type", "BLOCK") ; 
conf.esetClass("mapred.output.compre 

SS) done odie. ee 1, asso 
CompressionCodec.class) ; 


Eaa | 











下 面 分 别 执行 编译 打包 两 个 程序 ， 在 运行 时 用 time 命 令 记录 程序 的 执行 时 间 ， 如 下 所 











示 : 


= 

time bin/hadoop jar WordCount.jar WordCount XWTInput 
xwtOutput 

real 12m41.308s 

time bin/hadoop jar CompressionWordCount.jar 
CompressionWordCount XWTInput 

xwtOutput2 

real 8m9.714s 


Þe | 

CompressionWordCount. jar 是 带 压缩 的 WordCount 程 序 的 打包 ， 从 上 面 可 以 看 出 执行 压缩 
的 程序 要 比 不 压缩 的 程序 快 4 分 钟 ， 或 者 说 ， 在 这 个 实验 环境 下 ， 使 用 压缩 会 使 WordCount 效 
率 提 高 大 约 三 分 之 一 。 


























7.3 数据 


序列 化 是 
的 是 反 序列 


已， 
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D 进程 间 通 信 ; 





2) 数据 
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Hadoop% 








RPC 来 实现 进程 间 通 信 





1) 紧凑 : 


2) 快速 : 





3) 可 扩展 : 五 


个 新 的 参数 方法 调 




















的 IO 中 序列 化 操作 








竹 对 象 转化 为 字 节 流 的 方法 ， 或 者 说 
反 序 列 化 是 将 字 节 流转 化 为 对 象 的 方法 。 序 列 化 有 两 个 目的 ; 








紧凑 的 格式 可 以 充分 利 


能 减少 序列 化 和 反 序列 








ue 
TH Dh» 











4) 互 操作 性 : 








字 节 流 描述 对 象 





加 快 传输 速度 ; 


持 不 同 语言 编写 的 客户 端 与 服务 器 交换 数据 。 


的 方法 。 与 序列 化 相对 


。 一 般 而 言 ，RPC 的 序列 化 机 制 有 以 下 特点 ; 


的 开销 ， 这 会 有 效 地 减少 进程 间 通 信 的 时 间 ; 


以 逐步 改变 ， 是 客户 端 与 服务 器 端 直接 相关 的 ， 例 如 ， 可 以 随时 加 入 一 


Hadoop 也 希望 数据 持久 性 存储 同样 具有 以 上 这 些 优 点 ， 因 此 它 的 数据 序列 化 机 制 就 是 依 


4 





照 以 上 这 些 目 


在 Hadoop 中 ， 序 列 人 
要 执行 序列 化 
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4 而 设计 的 


(或 者 说 是 希望 设计 成 这 样 )。 





的 速度 ， 以 致 影响 计算 的 
制 (Java Obje 
有 紧凑 、 快 速 的 优点 (但 








BER. Il 





E 是 


ct Serialization) ， 而 是 


速度 
自己 村 








ams 


， 序 列 化 后 的 数据 大 4 





\ 等 者 


处 于 核心 地 位 。 因 为 无 论 是 存储 文件 还 是 在 计算 中 传输 数据 ， 都 需 
过程。 序列 化 与 反 序列 化 的 





会 影响 数据 传输 





天 











，Hadoop 并 没有 采 


Java 提 供 的 序列 化 机 


了 一 个 序列 化 机 制 Writeables。Writeables 具 














不 易 扩展 ， 








的 类 加 入 序列 化 与 反 序 员 


7.3.1 Wiritable 类 


也 不 利于 不 





化 方法 ， 而 ] 


是 很 方便 。 


[A 


语言 的 互 操 作 ) ， 同 





时 也 允许 对 自己 定义 














Writable 是 Hadoop 的 核心 ，Hadoop 通 过 它 定 义 了 Hadoop 中 基本 的 数据 类 型 及 其 操作 。 一 
般 来 说 ， 无 论 是 上 传 下 载 数据 还 是 运行 Mapreduce 程 序 ， 你 无 时 无 刻 不 需要 使 用 Writable 类 ， 
此 Hadoop 中 具有 庞大 的 一 类 Writable 类 〈 见 图 7-2) ,不 过 Writable 类 本 身 却 很 简单 。 


























Dr] 














Writable 类 中 只 定义 了 两 个 方法 : 


和 
// 序 列 化 输出 数据 流 
void write (DataOutput out) throws IOException 
// 反 序列 化 输入 数据 流 


void readFields (DataInput in) throws IOException 


| 


Hadoop 还 有 很 多 其 他 的 Writable 类 。 比 如 WritableComparable、Array Writable, Two- 








DArray Writable 及 AbstractMapWritable， 它 们 直接 继承 自 Writable 类 。 还 有 一 些 类 ， 如 
BooleanWritale 、ByteWritable 等 ， 它 们 不 是 直接 继承 于 Writable 类 ， 而 是 继承 自 
WritableComparable 类 。Hadoop 的 基本 数据 类 型 就 是 由 这 些 类 构成 的 。 这 些 类 构成 了 以 下 的 
层次 关系 〈 如 图 7-2 所 示 ) 。 

















Null Writable 





Bytes Writable 















Array Writable 
VintWritable MDSHash 


TwoDArrayWritable FloatWritable ObjectWritable 











ttoArray() 


Long Writable 


VLongWritable 





AbstractMapWniable 








MapWritable 





TaddtoMapiy 






eres Sl 
SSS 
图 7-2 Writable 类 层次 关系 图 


1.Hadoop 的 比较 器 








WritableComparable 是 Hadoop 中 非常 重要 的 接口 类 。 它 继承 自 


org.apache.hadoop.io.Writable 类 和 java.lang.Comparable 类 。WritableComparator 是 





Writablecomparable 的 比较 器 ， 它 是 RawComparator 针 对 WritableComparate 类 的 一 个 通用 入 























现 ， 而 RawComparator 则 继承 自 java.utiLComparator， 它 们 之 间 的 关系 如 图 7-3 所 示 。 




















Comparator Writable Comparator 








~ WintntleC omparabie 





ere 


WritableConparator 


图 7-3 WritableComparablefeWritableComparablor KB KK AA 





这 两 个 类 对 MapReduce 而 言 至 关 





下 要 ， 大 家 都 知道 ，MapReduce 执 行 时 ，Reducer ( 执 
行 Reduce 任 务 的 机 器 ) 会 搜集 相同 key 值 的 key/value 对 ， 并 且 在 Reduce 之 前 会 有 一 个 排序 过 
程 ， 这 些 键 值 的 比较 都 是 对 WritableComparate 类 型 进行 的 。 











Hadoop 在 RawComparator 中 实现 了 对 未 反 序 列 化 对 象 的 读 取 。 这 样 做 的 好 处 是 ， 可 以 不 
必 创 建 对 象 就 能 比较 想 要 比较 的 内 容 (多 是 key 值 》， 从 而 省 去 了 创建 对 象 的 开销 。 例 如 ， 
大 家 可 以 使 用 如 下 函数 ， 对 指定 了 开始 位 置 〈sS1 和 s2) 及 固定 长 度 (11 和 12 ) 的 数组 进行 比 
较 : 



































二 一 


public interface RawComparator<T>extends Comparator<T>{ 
public int compare (byte[]b1, int sl, int 11, byte[]b2, int 


s2, int 12); 
} 
a 


WritableComparator 是 RawComparator 的 子 类 ， 在 这 里 ， 添 加 了 一 个 默认 的 对 象 进行 反 
序列 化 ， 并 调用 了 比较 函数 compare O 进行 比较 。 下 面 是 WritableComparator 中 对 固定 字 节 
反 序 列 化 的 执行 情况 ， 以 及 比较 的 实现 过 程 : 


‘csi 

public int compare (byte[]b1, int sl, int 11, byte[]b2, int 
s2, int 12) { 

try{ 

buffer.reset (bl, sl, 11); //parse keyl 

keyl.readFields (buffer) ; 

buffer.reset (b2, s2, 12); //parse key2 

key2.readFields (buffer) ; 

}catch (IOException e) { 

throw new RuntimeException (e) ; 

} 

return compare (keyl, key2) ; //compare them 


TT | 






































} 


2.Writable 类 中 的 数据 类 型 





(1) 基本 类 





Writable 中 封装 有 很 多 Java 的 基本 类 ， 如 表 7-3 所 示 。 


表 7-3 Writable 中 的 Java 基本 类 


Writable 中 的 类 型 








Java 基本 类 型 


boolean 


序列 化 后 字 节 数 





BooleanWritable 
ByteWritable 





byte 





int IntWnitable 








float FloatWritable 





long LongWritable 





| 
| 
| 
| VintWritable 
| 
| 
| 


ViongWritable 


double DuobleWnitable 8 





æ% 




















其 中 最 简单 的 要 数 Hadoop 中 对 Boolean 的 实现 ， 如 下 所 示 : 


一 
package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io.*; 
public class BooleanWritable implements WritableComparable{ 
private boolean value; 
public BooleanWritable © {}; 
public BooleanWritable (boolean value) { 
set (value) ; 

} 

public void set (boolean value) { 
this.value=value; 

} 

public boolean get () { 

return value; 

} 

public void readFields (DataInput in) throws IOException{ 
value=in.readBoolean () ; 

} 

public void write (DataOutput out) throws IOException{ 
out.writeBoolean (value) ; 

} 

public boolean equals (Object o) { 

if (! (o instanceof BooleanWritable) ) { 
return false; 

} 

BooleanWritable other= (BooleanWritable) o; 
return this.value==other.value; 

} 

public int hashCode () { 

return value?0: 1; 

} 

public int compareTo (Object o) { 

boolean a=this.value; 

boolean b= ( (BooleanWritable) o) .value; 
return ( (a==b) ?0: (a==false) ?-1: 1); 

} 

public String toString © { 

return Boolean.toString (get O ); 

} 

public static class Comparator extends WritableComparator{ 
public Comparator () { 

super (BooleanWritable.class) ; 

} 

public int compare (byte[]b1, int sl, int 11, 
byte[]b2, int s2, int 12) { 





boolean a= (readInt (bl, sl) = 
boolean b= (readInt (b2, s2) = 


1) ?true: false; 
1) ?true: false; 

return ( (a==b) ?0: (a==false) ?-1: 1); 

} 

} 

static{ 

WritableComparator.define (BooleanWritable.class, new 
Comparator O ); 

} 

} 


EZ 





z| 


[以 看 到 Hadoop 直 接 将 boolean 写 入 到 字 节 流 (out.writeBoolean (value) ) 中 了 ， 并 没 
有 采用 Java 的 序列 化 机 制 。 同 时 ， 除 了 构造 函数 、set O 函数 、get O 函数 等 外 ，Hadoop 
还 定义 了 三 个 用 于 比较 的 函数 : equals O 、compareTo () 、compare © 。 前 两 个 很 简 
单 ， 第 三 个 就 是 前 文中 重点 介绍 的 比较 器 。Hadoop 中 封装 定义 的 其 他 Java 基 本 数据 类 型 (如 
Boolean, byte, int, float, long, double) 都 是 相似 的 。 







































































如 果 大 家 对 Java 流 处 理 比 较 了 解 的 话 可 能 会 知道 ，Java 流 处 理 中 并 没有 
DataOutput.writeVInt () 。 实 际 上 ， 这 是 Hadoop 自 己 定 义 的 变 长 类 型 (VInt, VLong) ， 而 
且 VInt 和 VLong 的 处 理 方式 实际 上 是 一 样 的 。 








一 
public static void writeVInt (DataOutput stream, int i) throws 
IOException{ 
writeVLong (stream, i); 


} 


一 4 


Hadoop 对 VLong 类 型 的 处 理 方法 如 下 : 


public static void writeVLong (DataOutput stream, long i) 
throws IOException{ 

if GG>=-112&&i<=127) { 

stream.writeByte ( (byte) i); 

return; 

} 

int len=-112; 

if (ix<o) { 

i^=-1L; //take one's complement' 


len=-120; 

} 

long tmp=i; 

while (tmp! =0) { 

tmp=tmp>>8; 

len--; 

} 

stream.writeByte ( (byte) len) ; 

len= (len<-120) ?- (len+120) : - (len+112); 
for (int idx=len; idx! =0; idx--) { 

int shiftbits= (idx-1) *8 

long mask=0xFFL<<shiftbits; 
stream.writeByte ( (byte) ( (i&mask) >>shiftbits) ); 
} 

} 


一 

上 面 代 码 的 意思 是 如 果 数值 较 小 〈 在 -112 和 127 之 间 ) ， 那 么 就 直接 将 这 个 数值 写 入 数据 
流 内 〈stream.writeByte ( (byte) i) ) 。 如 果 不 是 ， 则 先 用 len 表 示 字 节 长 度 与 正 负 ， 并 写 
入 数据 流 中 ， 然 后 在 其 后 写 入 这 个 数值 。 












































(2) 其 他 类 


下 面 将 按照 先 易 后 难 的 顺序 一 一 讲解 。 


1) NullWritable。 这 是 一 个 占 位 符 ， 它 的 序列 化 长 度 为 零 ， 没 有 数值 从 流 中 读 出 或 是 写 
入 流 中 。 








[= | 
public void readFields (DataInput in) throws IOException { } 
public void write (DataOutput out) throws IOException{} 

_ | 











在 任何 编程 语言 或 编程 框架 时 ， 占 位 符 都 是 很 有 用 的 ， 这 个 类 型 不 可 以 和 其 他 类 型 比 
较 ， 在 MapReduce， 你 可 以 将 任何 键 或 值 设 为 空 值 。 











2) BytesWritable 和 ByteWritable。ByteWritable 是 一 个 二 进 制 数据 的 封装 。 它 的 所 有 方 
法 都 是 基于 单个 Byte 来 处 理 的 。BytesWritable 是 一 个 二 进 制 数据 数组 的 封装 。 它 对 输出 流 的 
处 理 如 下 所 示 : 


p = 二 3 

public BytesWritable (byte[]bytes) { 

this.bytes=bytes; 

this.size=bytes.length; 

} 

public void write (DataOutput out) throws IOException{ 

out .writeInt (size) ; 

out .write (bytes, 0, size); 

} 
eee 


可 以 看 到 ， 它 首先 会 把 这 个 二 进 制 数据 数组 的 长 度 写 入 输入 流 中 ， 这 个 长 度 一 般 是 在 声 
明 时 所 获得 的 二 进 制 数 据 数组 的 实际 长 度 。 当 然 这 个 值 也 可 以 人 为 设 定 。 如 果 要 把 长 度 为 
3、 位 置 为 129 的 字 节 数组 序列 化 ， 根 据 程序 可 知 ， 结 果 应 为 ; 





| 
Size=00000003 bytes[J={ (01), (02), (09) } 
~ 


数据 流 中 的 值 就 是 : 


一 | 
00000003010209 
[ee | 





3) Text。 这 可 能 是 这 几 个 自 定义 类 型 中 相对 复杂 的 一 个 了 。 实 际 上 ， 这 是 Hadoop 中 对 
string 类 型 的 重 写 ， 但 是 又 与 其 有 一 些 不 同 。Text 使 用 标准 的 UTF-8 编 码 ， 同 时 Hadoop 使 
长 类 型 VInt 来 存储 字符 串 ， 其 存储 上 限 是 2GB。 
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Text 类 型 与 String 类 型 的 主要 差别 如 下 : 
String 的 长 度 定义 为 String 包 含 的 字符 个 数 ，Text 的 长 度 定义 为 UTF-8 编 码 的 字 节 数 。 


String 内 的 indexOf O 方法 返回 的 是 char 类 型 字符 的 索引 ， 比 如 字符 串 (1234) ， 字 符 3 
的 位 置 就 是 2 (字符 1 的 位 置 是 90); 而 Text 的 find O 方法 返回 的 是 字 节 偏 移 量 。 





String 的 charAt O 方法 返回 的 是 指定 位 置 的 char 字 符 ， 而 Text 的 charAT O 方法 需要 指 
定 偏 移 量 。 











另外 ，Text 内 定义 了 一 个 方法 toString O ， 它 用 于 将 Text 类 型 转化 为 String 类 型 。 











看 如 下 这 个 例子 : 


一 
package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io.*; 
import org.apache.hadoop.io.*; 
public class MyMapre{ 
public static void strings © { 

String s="\u0041\u00DF\u6771\uD801\uDC00"; 
System.out .println (s.length O ); 

System.out .println (s.indexOf ("\u0041") ) ; 
System.out .println (s.indexOf ("\u00DF") ) ; 
System.out .println (s.indexOf ("\u6771") ) ; 
System.out.printlin (s.indexOf ("\uD801\uDC00") ) ; 
} 

public static void texts © { 

Text t=new Text ("\u0041\u00DF\u6771\uD801\uDC00") ; 
System.out.println (t.getLength O ) ; 

System.out .println (t.find ("\u0041") ) ; 
System.out .println (t.find ("\u00DF") ) ; 
System.out .println (t.find ("\u6771") ) ; 
System.out .println (t.find ("\uD801\uDC00") ) ; 

} 

public static void main (String args[]) { 

strings () ; 

texts O; 


BO 
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上 面 例子 可 以 验证 前 面 所 列 的 那些 差别 。 











4) ObjectWritable。ObjectWritable 是 一 种 多 类 型 的 封装 。 可 以 适用 于 Java 的 基本 类 型 、 
字符 串 等 。 不 过 ， 这 并 不 是 一 个 好 方法 ， 因 为 Java 在 每 次 被 序列 化 时 ， 都 要 写 入 被 封装 类 型 
的 类 名 。 但 是 如 果 类 型 过 多 ， 使 用 静态 数组 难以 表示 时 ， 采 用 这 个 类 仍 是 不 错 的 做 法 。 





















































5) Array Writable 和 TwoDArray Writable. Array Writable 和 TwoDArray Writable， 顾 名 
思 义 ， 是 针对 数组 和 二 维 数组 构建 的 数据 类 型 。 这 两 个 类 型 声明 的 变量 需要 在 使 用 时 指定 类 
型 ， 因 为 Array Writable 和 TwoDArray Writable 并 没有 空 值 的 构造 函数 。 






































TT | 


ArrayWritable a=new ArrayWritable (IntWritable.class) 


| 














同样 ， 在 声明 它们 的 子 类 时 ， 必 须 使 用 super〈) 来 指定 Array Writable Ail 
TwoDArray Writable 的 数据 类 型 。 





= 
public class IntArrayWritable extends ArrayWritable{ 
public IntArrayWritable () { 
super (IntWritable.class) ; 
} 
} 


TT | 


一 般 情 况 下 ，ArrayWritable 和 TwoDArray Writable 都 有 set O 和 get O 函数 ， 在 将 Text 
转化 为 String 时 ， 它 们 也 都 提供 了 一 个 转化 函数 toArray O 。 但 是 它们 没有 提供 比较 器 
comparator， 这 点 需要 注意 。 同 时 从 TwoDArray Writable 的 write 和 readFields 可 以 看 出 是 横向 
读 写 的 ， 同 时 还 会 读 写 每 一 维 的 数据 长 度 。 


Fa 
public void readFields (DataInput in) throws IOException{ 
for (int i=0; i<values.length; i++) { 
for (int j=0; j<values[i].length; j++) { 
value.readFields (in) ; 
values [i] [j]=value; // 保 存 读 取 的 数据 
} 
} 
} 
public void write (DataOutput out) throws IOException{ 


for (int i=0; i<values.length; i++) { 
out.writeInt (values[i].length) ; 

} 

for (int i=0; i<values.length; i++) { 
for (int j=0; j<values[i].length; j++) { 
values[i][j].write (out) ; 

} 

} 

} 


二 一 


6) MapWritable: 和 SortedMapWritable。MapWritable 和 SortedMapWritable 分 别 是 
java.util.Map (© 和 java.utilSortedMap〈) 的 实现 。 


这 两 个 实例 是 按照 如 下 格式 声明 的 : 


= 
private Map<Writable, Writable>instance; 
private SortedMap<WritableComparable, Writable>instance; 


ee | 






































我 们 可 以 用 Hadoop 定 义 的 Writable 类 型 来 填充 key 或 value， 也 可 以 使 用 自己 定义 的 
Writable 类 型 来 填充 。 





在 java.utiLMap © 和 java.utiLSortedMap O 中 定义 的 功能 ， 如 getKey O ~ 
getValue O 、keySet O 等 ， 在 这 两 个 类 中 均 有 实现 。Map 的 使 用 也 很 简单 ， 见 如 下 程序 ， 
需要 注意 的 是 ， 不 同 key 值 对 应 的 value 数 据 类 型 可 以 不 同 。 


























一 一) 
package cn.edn.rm.cloodcomputing.book.chapter07; 
import java.io.*; 
import java.util.*; 
import org.apache.hadoop.io.*; 
public class MyMapre{ 
public static void main (String args[]) throws IOException{ 
MapWritable a=new MapWritable O) ; 
a.put (new IntWritable (1), new Text ("Hello") ); 
a.put (new IntWritable (2) , new Text ("World") ); 
MapWritable b=new MapWritable O) ; 
WritableUtils.cloneInto (b, a); 
System.out .println (b.get (new IntWritable (1) )); 
System.out.printin (b.get (new IntWritable (2) ) ) ; 


} 
} 
Hello 
World 


一 

7) CompressedWritable。CompressedWritable 是 保存 压缩 数据 的 数据 结构 。 跟 之 前 介绍 
的 数据 结构 不 同 ， 它 实现 Writable 接 口 ， 主 要 面向 在 Map 和 Reduce 阶 段 中 的 大 数据 对 象 操 
作 ， 对 这 些 大 数据 对 象 的 压缩 能 够 大 大 加 快 数据 的 传输 速率 。 它 的 主要 数据 结构 是 一 个 byte 
数组 ， 提 供给 用 户 必须 实现 的 函数 是 readFieldsCompressed 和 writeCompressed。 
CompressedWritable 在 读 取 数据 时 先 读 取 二 进 制 字 节 流 ， 然 后 调用 ensureInflated 函 数 进行 解 
压 ， 在 写 数据 时 ， 将 输出 的 二 进 制 字 节 流 封装 成 压缩 后 的 二 进 制 字 节 流 。 








可 
























































8) GenericWritable 。 这 个 数据 类 型 是 一 个 通用 的 数据 封装 类 型 。 由 于 是 通用 的 数据 封 
装 ， 它 需要 保存 数据 和 数据 的 原始 类 型 ， 其 数据 结构 如 下 : 


和 
private static final byte NOT_SET=-1; 
private byte type=NOT_SET; 
private Writable instance; 
private Configuration conf=null; 


Eee 
于 其 特殊 的 数据 结构 ， 在 读 写 时 也 需要 读 写 对 应 的 数据 结构 : 实际 数据 和 数据 类 型 ， 
并 且 要 保证 固定 的 顺序 。 


ee | 
public void readFields (DataInput in) throws IOException{ 
// 先 读 取 数据 类 型 
type=in.readByte () ; 






























































// 再 读 取 数据 

instance.readFields (in) 

} 

public void write (DataOutput out) throws IOException{ 

if (type==NOT_SET| | instance==null) 

throw new IOException ("The GenericWritable has NOT been set 
correctly.type=" 

+typet", instance="+instance) ; 


// 先 写 出 数据 类 型 








out .writeByte (type) ; 
// 在 写 出 数据 
instance.write (out) ; 


} 
| | 





9) VersionedWritable。VersionedWritable 是 一 个 抽象 的 版 本 检查 类 ， 它 主要 保证 在 一 个 
类 的 发 展 过 程 中 ， 使 用 旧 类 编写 的 程序 仍然 能 由 新 类 解析 处 理 。 在 这 个 类 的 实现 中 只 有 简单 
的 三 个 函数 : 












































ee | 
// 返 回 版 本 信息 
public abstract byte getVersion () ; 
// 写 出 版 本 信息 
public void write (DataOutput out) throws IOException{ 
out .writeByte (getVersion O ); 


} 

// 读 入 版 本 信息 

public void readFields (DataInput in) throws IOException{ 
byte version=in.readByte () ; 

if (version! =getVersion () ) 

throw new VersionMismatchException (getVersion () , version) ; 


} 
Qe 














7.3.2 ”实现 自己 的 Hadoop 数 据 类 型 




















实现 自 定义 的 Hadoop 数 据 类 型 具有 非常 重要 的 意义 。 虽 然 Hadoop 已 经 定义 了 很 多 有 
的 数据 类 型 ， 但 在 实际 应 用 中 ， 我 们 总 是 需要 定义 自己 的 数据 类 型 以 满足 程序 的 需要 。 


















































我 们 定义 一 个 简单 的 整数 对 二 LongWritable, LongWritable > ， 这 个 类 可 以 用 来 记录 文章 
中 单词 出 现 的 位 置 ， 第 一 个 LongWritable 代 表 行 数 ， 第 二 个 LongWritable 代 表 它 是 该 行 的 第 
几 个 单词 。 定 义 NumPair， 如 下 所 示 : 








sl 
package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io.*; 
import org.apache.hadoop.io.*; 
public class NumPair implements WritableComparable<NumPair>{ 
private LongWritable line; 
private LongWritable location; 
public NumPair () { 
set (new LongWritable (0) , new LongWritable (0) ) ; 
} 
public void set (LongWritable first, LongWritable second) 
{ 
this.line=first; 
this.location=second; 
} 
public NumPair (LongWritable first, LongWritable second) { 
set (first, second) ; 
} 
public NumPair (int first, int second) { 
set (new LongWritable (first) , new LongWritable (second) ) ; 
} 
public LongWritable getLine () { 
řeturn line; 
} 
public LongWritable getLocation () { 
return location; 
} 
@Override 
public void readFields (DataInput in) throws IOException 
{ 
line.readFields (in) ; 
location.readFields (in) ; 
} 


@Override 

public void write (DataOutput out) throws IOException{ 
line.write (out) ; 

location.write (out) ; 

} 

public boolean equals (NumPair o) { 

if ( (this.line==o.line) && (this.location==o.location) ) 
return true; 

return false; 

} 

@Override 

public int hashCode () { 

return line.hashCode () *13+location.hashCode () ; 

} 

@Override 

public int compareTo (NumPair o) { 

if ( (this.line==o.line) && (this.location==o.location) ) 
return 0; 

return-1; 

} 

} 


TT | 


7.4 针对 Mapreduce 的 文件 类 


Hadoop 定 义 了 一 些 文件 数据 结构 以 适应 Mapreduce 编 程 框架 的 需要 ， 其 中 SequenceFile 




















和 MapFile 两 种 类 型 非常 重要 ，Map 输 出 的 中 间 结 果 就 是 由 它们 表示 的 。 其 中 ， 
过 排序 并 带 有 索引 的 SequenceFile 。 








7.4.1 SequenceFile 类 


MapFile 是 经 





SequenceFile 记 录 的 是 key /value 对 的 列表 ， 是 序列 化 之 后 的 二 进 制 文件 ， 因 此 是 不 能 直 











接 查 看 的 ， 我 们 可 以 通过 如 下 命令 来 查看 这 个 文件 的 内 容 。 


O. 


hadoop fs-text MySequenceFile (你 的 SequenceFile 文 件 ) 


= = = == 


Sequence 有 三 种 不 同类 型 的 结构 : 
1) 未 压缩 的 key /value 对 ; 
2) 记录 压缩 的 Key/value 对 (这 种 情况 下 只 有 value 被 压缩 》; 


3) Block 压 缩 的 key/value 对 〔 在 这 种 情况 下 ，key 与 value 被 分 别 记录 到 块 





下 面 详 细 介 绍 它 们 的 结构 。 
1. 未 压缩 和 只 压缩 value 的 SequenceFile 数 据 格式 


未 压缩 和 只 压缩 value 的 SequenceFile 数 据 格式 基本 是 相同 的 。 


z 





Header 是 头 ， 它 记录 的 内 容 如 图 7-4 所 示 ， 现 在 一 一 对 其 进行 解释 : 


P 并 压缩 ) o 





Header 





Sync-marker 


(Compresvon) 
Value 


图 7-4 SequenceFile 数 据 格式 〈 未 压缩 和 Record 压 缩 格式 ) 


version 〈 版 本 号 ) : 这 是 一 个 形 如 SEQ4 或 SEQ5 的 字 节 数组 ， 一 共 占 








个 字 节 ; 








keyClassName (key 类 名 ) 和 valueClassName (value 类 名 ) : 这 两 个 都 是 String 类 型 ， 记 
录 的 是 key 和 value 的 数据 类 型 ; 


compression (压缩) : 这 是 一 个 布尔 类 型 ， 它 记录 
blockCompression (Block 压 缩 ) : 布尔 类 型 ， 记 录 BlockH 


compressor class〈 压 缩 类 ) : 





这 是 Hadoop 内 封装 的 


的 是 在 这 个 文件 中 压缩 是 否 启 


E 缩 是 否 启 




















metadata (元 数据 〉: 








的 列表 ; 


Record: 它 是 数据 内 容 ， 


Syne-marker: 它 是 一 个 标记 ， 可 以 允许 程序 快速 找到 文件 


MapReduce 程 序 更 有 效率 


需要 注意 的 是 ，Sync-mar 


妈 7-5 所 示 的 序列 文件 。 














于 记录 文件 的 元 数据 ， 文 件 











4 









































压缩 key 和 value 的 代码 ; 


的 元 数据 是 一 个 二 属性 名 ， 值 之 对 








其 内 容 简 单 明 了 ， 相 信 大 家 看 








就 很 容易 明白 。 














也 分 割 大 文件 。 





ker 每 隔 几 百 个 字 节 会 








P 随 机 的 一 个 点 。 它 可 以 使 











因此 最 后 的 SequenceFile 会 是 








[Header Recorder | Recorder | Recarder | Sync | Recorder | Recorder Syne 


图 7-5 SequenceFile 数 据 存 储 示例 


Sync 出 现 的 位 置 取决 于 字 节 数 ， 而 不 是 间隔 的 Recorder 的 个 数 。 





从 上 面 的 内 容 可 以 知道 ， 未 压缩 与 只 压缩 value 的 SequenceFile 数 据 格式 有 两 点 不 同 ， 一 
是 compression (是否 压缩 ) 的 值 不 同 ， 二 是 value 存 储 的 数据 是 否 经 过 了 压缩 不 同 。 











2.Block 压 缩 的 SequenceFile 数 据 格式 


Block 压 缩 的 SequenceFile 数 据 格式 与 上 面 两 种 也 很 相似 ， 它 们 的 头 与 上 面 是 一 样 的 ， 同 


时 也 会 标记 一 个 Sync-marker。 不 过 它们 的 Recorder 格 式 是 不 同 的 ， 并 
在 每 个 块 前 面 的 。 下 面 是 Block 压 缩 的 SequenceFile 的 Recorder 格 式 。 如 





Compressed key-lengths block-size 
Compressed key-lengths block 
Compressed keys block-size 
Compressed keys block 
Compressed value-tengths block-size 

















Compressed value-lengths block 





Compressed values block-size 








Compressed values block 





且 Sync-marker 是 标记 











7-6 所 示 。 





图 7-6 SequenceFile 数 据 格 式 Recorder 部 分 (Block 压 缩 ) 


Block 压 缩 一 次 会 压缩 多 个 Recorder, Recorder 在 达到 一 个 值 时 被 记录 ， 这 个 值 是 




















io.seqfile.compress.blocksize 定 义 的 。Block 压 缩 的 SequenceFile 是 形成 图 7-7 所 示 的 序列 文件 。 





-y 


[Header | Sync [Recorder | Sync | Recorder | Sync [Recorder | 


图 7-7 SequenceFile 数 据 存储 示例 (Block /E 4) 





我 们 可 以 通过 编写 程序 生成 读 取 SequenceFile 文 件 来 实践 一 下 。 


程序 如 下 注意 这 个 程序 生成 的 数据 大 概 会 有 150MB， 需 要 的 话 可 以 减少 循环 次 数 以 缩 
短 运 行 时 间 ) : 





S= aa e e ， 
package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io.IOException; 
import java.net.URI; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.*; 
import org.apache.hadoop.io.*; 
public class SequenceFileWriteDemo{ 
private static String[]myValue={ 

"hello world", 

"bye world", 

"hello hadoop", 

"bye hadoop" 

}s 

public static void main (String[Jargs) throws IOException{ 

String uri=" 你 想 要 生成 的 SequenceFile 的 位 置 "; 

Configuration conf=new Configuration O); 

FileSystem fs=FileSystem.get (URI.create (uri), conf) ; 

Path path=new Path (uri) ; 

IntWritable key=new IntWritable () ; 

Text value=new Text ©; 

SequenceFile.Writer writer=null; 

try{ 

writer=SequenceFile.createWriter (fs, conf, path, 
key.getClass () , value. 

getClass () ); 

for (int i=0; i<5000000; i++) { 

key.set (5000000-i) ; 

value.set (myValue[i%myValue.length]) ; 

writer.append (key, value) ; 

} 

}finally{ 





IoUtils.closeStream (writer) ; 
} 
} 
} 


一 











程序 结果 是 生成 了 一 个 SequenceFile 文 件 ， 你 可 以 使 用 前 文 提 到 的 命令 : Hadoop fs-text 
你 的 SequenceFile 文 件 名 ， 来 查看 这 个 文件 。 因 为 内 容 太 多 只 展示 一 部 分 ， 其 内 容 如 下 : 



































SSS oa 
5000000 hello world 
4999999 bye world 
4999998 hello hadoop 
4999997 bye hadoop 
4999996 hello world 
4999995 bye world 
4999994 hello hadoop 
4999993 bye hadoop 
4999992 hello world 
4999991 bye world 
10 hello hadoop 

bye hadoop 

hello world 

bye world 

hello hadoop 

bye hadoop 

hello world 

bye world 

hello hadoop 

bye hadoop 


一 


ENU BUONO 


这 个 程序 的 关键 是 下 面 这 段 代 码 ; 


一 
SequenceFile.Writer writer=null; 
writer=SequenceFile.createWriter (fs, conf, path, 

key.getClass () value.getClass O ); 
writer.append (key, value) ; 


一 











我 们 需要 声明 SequenceFile.Writer 类 并 使 用 函数 SequenceFile.createWriter O 来 给 它 赋 
值 。 这 个 函数 中 至 少 要 指定 四 个 参数 ， 即 输出 流 s) 、conf 对 象 (conf) 、key 的 类 型 、 












































value 的 类 型 ， 同 时 它 还 有 很 多 重 构 函数 ， 可 以 设置 压缩 等 。 然 后 我 们 就 可 以 使 
writerappend O 来 向 流 中 写 入 key/value 对 了 。 

















读 取 SequenceFile 文 件 内 容 的 程序 也 很 简单 ， 如 下 所 示 。 


SequenceFileReadFile 


= 

package cn.edn.ruc.cloudcomputing.book.chapter07; 

import java.io.IOException; 

import java.net.URI; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IOUtils; 

import org.apache.hadoop.io.SequenceFile; 

import org.apache.hadoop.io.Writable; 

import org.apache.hadoop.util.ReflectionUtils; 

public class SequenceFileReadFile{ 

public static void main (String[Jargs) throws IOException{ 

String uri=" 你 想 要 读 取 的 SequenceFile 所 在 位 置 "; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri), conf) ; 

Path path=new Path (uri) ; 

SequenceFile.Reader reader=null; 

try{ 

reader=new SequenceFile.Reader (fs, path, conf); 

Writable key= (Writable) ReflectionUtils.newInsta 

nce (reader.getKeyClass (), conf); 

Writable value= (WritableReflectionUtils.newInsta 

nce (reader.getValueClass () , conf) ; 

long position=reader.getPosition () ; 

while (reader.next (key, value) ) { 

String syncSeen=reader.syncSeen () ?"*"; ""; 

System.out.printf ("[%s%s]\t%s\t%s\n", position, syncSeen, 
key, value) ; 

position=reader.getPosition () ; //beginning of next record 

} 

}finally{ 

IoUtils.closeStream (reader) ; 

} 

} 

} 


E 


读 取 SequenceFile 文 件 的 程序 关键 是 以 下 代码 : 
| = 一 


SequenceFile.Reader reader=null; 
reader=new SequenceFile.Reader (fs, path, conf); 
reader.next (key, value) ; 
Writable key= (Writable) ReflectionUtils.newInstance (reader. 
getKeyClass () , conf) ; 
Writable value= (Writable) 
ReflectionUtils.newInstance (reader. 
getValueClass () , conf) ; 


一 
很 简单 ， 声 明 reader 并 赋值 之 后 ， 我 们 可 以 通过 getKey Class() 和 getValueClass() 得 

到 key 和 value 的 类 型 ， 并 通过 ReflectionUtils 直 接 实例 化 对 象 ， 然 后 就 可 以 通过 

reader.next © 跳 到 下 一 个 key/value 值 ， 以 遍历 文件 中 所 有 的 key value Xf. 
































根据 前 面 所 述 ， 生 成 SequenceFile 文 件 时 是 可 以 采用 压缩 方式 的 ， 下 面 就 采用 Block 压 缩 
方式 生成 SequenceFile 文 件 。 此 程序 与 生成 不 压缩 SequenceFile 文 件 的 程序 基本 相同 ， 只 是 在 
SequenceFile.createWrite O 时 修改 了 一 下 设置 ， 如 下 所 示 : 























| 
SequenceFile.createWriter (fs,conf,path,key.getClass O , 
value. 
getClass () , CompressionType. BLOCK) 


| 
然后 查看 生成 的 两 个 文件 的 大 小 ; 


一 
-rwxrwxrwx 1 u u 10214801 2011-01-14 16: 31 MySequenceOutput 
-rwxrwxrwx 1 u u 159062628 2011-01-14 16: 25 

MySequenceOutput2 


i 














文件 大 小 是 以 byte 显 示 的 ， 可 以 看 到 ， 采 用 Block 压 缩 的 文件 是 不 压缩 的 116 左 右 。 


























我 们 可 以 将 这 个 Java 文 件 编译 打包 ， 在 运行 时 使 用 time 函 数 记 录 这 两 个 jar 包 的 执行 时 
间 ， 如 下 所 示 : 
[| 

















// 这 是 不 使 用 压缩 的 程 邱 


time hadoop jar UnComSequenceFileWriteFile.jar UnComSequence 





FileWriteFile 

real 0m47.668s 

// 这 是 使 用 压缩 的 程 请 

time hadoop jar ComSequenceFileWriteFile.jar ComSequenceFile 























WriteFile 


real 0m7.539s 
ee | 


上 面 记录 了 程序 具体 运行 的 时 间 ， 以 毫秒 为 单位 。 可 以 看 出 ， 使 用 压缩 的 程序 其 执 
率 要 远 远 高 于 不 使 用 压缩 的 程序 。 我 们 推测 这 个 时 间 的 差距 主要 是 受 硬盘 写 入 时 间 的 影响 ， 
再 加 上 传输 10MB 的 数据 所 花 的 时 间 要 远 远 少 于 传输 159MB 的 数据 的 。 这 就 能 很 好 地 解释 为 
压缩 会 提高 效率 了 《因为 一 般 而 言 ， 这 是 Map 的 输出 文件 ) 。 










































































什么 在 MapReduce 程 序 中 采 


7.4.2 ”MapFile 类 

















MapFile 的 使 用 与 SequenceFile 类 似 ， 建 立 MapFile 文 件 的 程序 如 下 : 





MapFile WriteFile. java 


A 
package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io.IOException; 
import java.net.URI; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.*; 
import org.apache.hadoop.io.*; 
public class MapFileWriteFile{ 
private static final String[]myValue={ 

"hello world", 

"bye world", 

"hello hadoop", 

"bye hadoop" 

hs 

public static void main (String[]args) throws IOException{ 
String uri=" 你 想 要 生成 sequenceFile 的 位 置 "; 
Configuration conf=new Configuration () ; 
FileSystem fs=FileSystem.get (URI.create (uri), conf); 
IntWritable key=new IntWritable () ; 

Text value=new Text (); 

MapFile.Writer writer=null; 

try{ 

writer=new MapFile.Writer (conf, fs, uri, key.get 
Class (), value.getClass () ); 

for (int i=0; i<500; i++) { 

key.set (i); 

value.set (myValue[i%myValue.length]) ; 
writer.append (key, value) ; 

} 

}finally{ 

IoUtils.closeStream (writer) ; 

} 

} 

} 


二 一 








这 个 程序 与 建立 SequenceFile 文 件 的 程序 极其 类 似 ， 这 里 就 不 详 述 了 。 与 SequenceFile 只 


生成 一 个 文件 不 同 ， 这 个 程序 生成 的 是 一 个 文件 夹 。 如 下 所 示 : 








让 
-rw-r--r--**supergroup 16018*/user/root/MapFileOutput/data 
-rw-r--r--**supergroup 227*/user/root/MapFileOutput/index 


二 一 

















其 中 data 是 存储 的 数据 ， 即 MapFile 文 件 〈 经 过 排序 SequenceFile 文 件 ) ，index 就 是 索引 
了 ， 在 这 个 程序 中 ， 其 内 容 如 下 : 


一， 
0 128 
128 4200 
256 8272 
384 12344 


| aaa} 








H 











可 以 看 出 ， 索 引 是 按 每 128 个 键 建立 的 ， 这 个 值 可 以 通过 修改 io.map.index.interval 的 大 小 
来 修改 。key 值 后 面 是 偏 移 量 ， 用 于 记录 key 的 位 置 。 























读 取 MapFile 文 件 的 程序 也 很 简单 ， 其 内 容 如 下 所 示 : 


| Saem ae 
package cn.edn.ruc.cloudcomputing.book.chapter07; 
import java.io.IOException; 
import java.net.URI; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.io.IOUtils; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.MapFile; 
import org.apache.hadoop.io.Writable; 
import org.apache.hadoop.io.WritableComparable; 
import org.apache.hadoop.util.ReflectionUtils; 
public class MapFileReadFile{ 
public static void main (String[]args) throws IOException{ 
String uri=" 你 想 要 读 取 的 MapFile 文 件 位 置 "; 
Configuration conf=new Configuration O) ; 
FileSystem fs=FileSystem.get (URI.create (uri), conf) ; 
MapFile.Reader reader=null; 
try{ 
reader=new MapFile.Reader (fs, uri, conf); 
WritableComparable key= (WritableComparable) 
ReflectionUtils.newInstance (reader.getKeyClass () , conf) ; 


Writable value= (Writable) ReflectionUtils. 
newInstance (reader.getValueClass () , conf) ; 
while (reader.next (key, value) ) { 
System.out.printf ("$s\t%s\n", key, value); 
} 

reader.get (new IntWritable (7), value); 
System.out.printf ("%$s\n", value) ; 
}finally{ 

IOUtils.closeStream (reader) ; 

} 

} 

} 


| 











其 特别 之 处 是 ，MapFile 可 以 查找 单个 键 所 对 应 的 value 值 ， 见 下 面 这 段 话 : 


央行 这 个 操作 时 ，MapFile.Reader O 需要 先 把 index 读 入 内 存 中 ， 然 后 执行 一 个 简单 的 
二 又 搜索 找到 数据 ，MapFile.Reader O 在 查找 时 ， 会 先 在 索引 文件 中 找到 小 于 我 们 想 要 找 
的 key 值 的 索引 key 值 ， 然 后 再 到 data 文 件 中 向 后 查找 。 























大 型 MapFile 文 件 的 索引 通常 会 占用 很 大 的 内 存 ， 这 时 我 们 可 以 通过 重 设 索引 、 增 加 索引 
间隔 的 方法 降低 索引 文件 的 大 小 ， 但 是 重 设 索 引 是 一 个 很 麻烦 的 事情 。Hadoop 提 供 了 另 一 个 
非常 有 效 的 方法 ， 就 是 读 取 索 引文 件 时 ， 可 以 每 隔 几 个 索引 key 再 读 取 索 引 key 值 ， 这 样 就 可 
以 有 效 地 降低 读 入 内 存 的 索引 文件 的 大 小 。 至 于 跳 过 key 的 个 数 是 通过 io.map.index.skip 来 设 
置 的 。 


























7.4.3 ArrayFile、SetFile 和 BloomMapFile 


Array File 继 承 自 MapFile， 它 保存 的 是 从 Integer 到 value 的 映射 关系 。 这 一 点 从 它 的 代码 
实现 上 也 可 以 看 出 : 


二 一 

public Writer (Configuration conf, FileSystem fs, 

String file, Class<?extends Writable>valClass) 

throws IOException{ 

super (conf, fs, file, LongWritable.class, valClass) ; 

} 

public static class Reader extends MapFile.Reader{ 

private LongWritable key=new LongWritable () ; 

public Reader (FileSystem fs, String file, Configuration 
conf) throws IOException{ 

super (fs, file, conf) ; 

} 

} 


—<—<——— t= 
从 上 面 的 代码 中 看 出 ， 在 写 出 时 ，ley 的 数据 类 型 是 LongWritable， 而 不 是 MapFile 中 的 
WritableComparator.get (keyClass) ， 在 读 入 的 时 候 ， 可 以 直接 定义 成 LongWriable 。 
ArrayFile 更 加 具体 的 定义 缩小 了 其 适用 范围 ， 但 是 也 降低 了 使 用 的 难度 ， 提 高 了 使 用 的 准确 
性 。 




































































SetFile 同 样 继承 自 MapFile， 它 同 Java 中 的 set 类 似 ， 仅 仅 是 一 个 Key 的 集合 ， 而 没有 任何 





value. 


二 一 

public Writer (Configuration conf, FileSystem fs, String 
dirName, 

Class<?extends WritableComparable>keyClass, 

SequenceFile.CompressionType compress) 

throws IOException{ 

this (conf, fs, dirName, WritableComparator.get (keyClass) , 
compress) ; 

} 

public void append (WritableComparable key) throws 
IOException{ 

append (key, NullWritable.get O ); 


} 

public Reader (FileSystem fs, String dirName, 
WritableComparator comparator, 

Configuration conf) 

throws IOException{ 

super (fs, dirName, comparator, conf) ; 

} 

public boolean seek (WritableComparable key) 

throws IOException{ 

return super.seek (key) ; 

} 

public boolean next (WritableComparable key) 

throws IOException{ 

return next (key, NullWritable.get O ); 

} 


| 一 

从 上 面 SetFile 的 实现 代码 ( 读 、 插 入 、 写 、 查 找 、 下 一 个 key ) 也 可 以 看 出 ， 它 仅仅 是 一 
个 key 的 集合 ， 而 非 映射 。 需 要 注意 的 是 向 SetFile 中 插入 key 时 ， 必 须 保证 此 key 比 set 中 的 key 
都 大 ， 即 SetFile 实 际 上 是 一 个 key 的 有 序 集合 。 





Bloom MapFile 没 有 从 MapFile 继 承 ， 但 是 它 的 两 个 核心 内 部 类 Writer/Reader 均 继承 自 
MapFile 对 应 的 两 个 内 部 类 ， 其 在 实际 使 用 中 发 挥 的 作用 也 和 MapFile 类 似 ， 只 是 增加 了 过 滤 
的 功能 。 它 使 用 动态 的 Bloom Filter (请 参见 本 书 第 5 章 ) 来 检查 key 是 否 包含 在 预定 的 key 集 
合 内 。BloomMapFile 的 数据 结构 有 ley/value 的 映射 和 一 个 Bloom Filter， 在 写 出 数据 时 先 根据 
配置 初始 化 Bloom Fliter， 将 key 加 入 Bloom Filter 中 ， 然 后 写 出 key/value 数 据 ， 最 后 在 关闭 输 
出 流 时 写 出 Bloom Filter， 具 体 可 见 代 码 : 
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II 

public Writer (Configuration conf, FileSystem fs, String 
dirName, 

WritableComparator comparator, Class valClass) throws 
IOException{ 

super (conf, fs, dirName, comparator, valClass) ; 

this.fs=fs; 

this.dir=new Path (dirName) ; 

initBloomFilter (conf) ; 

} 

private synchronized void initBloomFilter (Configuration 
conf) { 


} 

@Override 

public synchronized void append (WritableComparable key, 
Writable val) 

throws IOException{ 

bloomFilter.add (bloomKey) ; // 向 BloomFiltez 插 入 数据 

} 

@Override 

public synchronized void close () throws IOException{ 

super.close () ; 

DataOutputStream out=fs.create (new Path (dir, 
BLOOM FILE NAME) , true) ; 

bloomFilter.write (out) ; // 写 出 BloomFilter 

out.flush (); 

out .close () ; 

} 


S—O——————————————€8!8lCOOOoeleNeua—eeOoonnanOQnaououuunaunaqmar 


在 读 入 数据 的 时 候 ， 同 样 先是 在 初始 化 Reader 时 初始 化 Bloom Filter， 并 立刻 读 入 输入 数 
据 中 的 Bloom Filter， 接 下 来 再 读 入 key/value 数 据 ， 具 体 代码 如 下 : 


一 

public Reader (FileSystem fs, String dirName, 
WritableComparator comparator, 

Configuration conf) throws IOException{ 

super (fs, dirName, comparator, conf) ; 

initBloomFilter (fs, dirName, conf) ; 

} 

private void initBloomFilter (FileSystem fs, String dirName, 

Configuration conf) { 

DataInputStream in=fs.open (new Path (dirName, 
BLOOM_FILE_NAME) ) ; 

bloomFilter=new DynamicBloomFilter () ; 

bloomFilter.readFields (in) ; 

in.close () ; 

} 


二 一 








除了 提供 基本 的 读 入 和 写 出 操作 ，BloomMapFile 类 还 提供 了 Bloom Filter 的 一 些 操作 一 
probably HasKey 和 get: 第 一 个 操作 是 检测 某 个 key 是 否 已 存在 于 BloomMapFile 中 ， 第 二 个 操 
作 是 如 果 key 存 在 BloomMapFile 中 则 返回 其 value， 具 体 代码 实现 如 下 : 
een 








public boolean probablyHasKey (WritableComparable key) throws 
IOException{ 

if (bloomFilter==null) { 

return true; 

} 

buf.reset © ; 

key.write (buf) ; 

bloomKey.set (buf.getData (), 1.0); 

return bloomFilter.membershipTest (bloomKey) ; 

} 

@Override 

public synchronized Writable get (WritableComparable key, 
Writable val) 

throws IOException{ 

if (! probablyHasKey (key) ) { 

return null; 

} 

return super.get (key, val); 

} 


一 


7.5 本 章 小 结 


本 章 主 要 介绍 了 Hadoop 的 IO 操作 ， 主 要 有 以 下 几 个 内 容 : 数据 完整 性 、 压 缩 、 序 列 化 
和 基于 文件 的 数据 结构 。 数 据 完整 性 方面 主要 介绍 了 Hadoop 是 如 何 通过 校 验 和 机 制 保证 数据 
完整 性 的 ， 关 于 压缩 介绍 了 目前 Hadoop 开 发 的 几 种 压缩 算法 及 它们 的 优 缺 点 ， 其 中 压缩 分 割 
和 输入 分 割 是 我 们 编写 MapReduce 程 序 时 经 常 要 用 到 的 ， 要 理解 清楚 ， 序 列 化 主要 介绍 了 
Hadoop 自 己 的 序列 化 机 制 ， 它 非常 简单 直接 ， 并 不 像 Java 的 序列 化 机 制 那样 面面俱到 ， 但 这 
样 可 以 使 数据 更 加 紧凑 ， 同 时 也 可 以 加 快 序列 化 和 反 序 列 化 的 速度 ， 最 后 介绍 了 Hadoop 自 己 
定义 的 几 类 数据 结构 也 可 以 看 成 一 类 ) ， 它 们 都 是 非常 常用 的 基于 文件 数据 结构 ， 
MapReduce 程 序 中 Map 程 序 生成 的 中 间 结 果 就 是 用 这 种 基于 文件 的 数据 结构 表示 的 ， 它 也 是 


本 章 中 非常 重要 的 一 个 内 容 。 


































































































第 8 章 ”下 一 代 MapReduce: YARN 


本 章 内 


or 


MapReduce V2 设 计 需 求 
MapReduce V2 主要 思想 和 架构 
MapReduce V2 设计 细节 
MapReduce V2 优势 


本 章 小 结 





在 第 7 章 中 我 们 为 大 家 详细 介绍 了 MapReduce 在 Hadoop 中 的 实现 细节 。 尽 管 Hadoop 
MapReduce 在 全 球 范围 内 广 受 欢迎 ， 但 是 大 前 
意识 到 了 Hadoop MapReduce 框 架 的 局 限 性 。 





〖 分 人 还 是 从 Hadoop MapReduce 的 框架 组 成 





1) JobTracler 单 点 瓶颈 。 在 之 前 
的 分 发 、 管 理 和 调度 ， 同 时 还 必须 
行 状态 和 资源 情况 。 很 明显 ，MapRe 
集群 的 数量 和 提交 Job 的 数量 不 断 增 力 
JobTracler 内 在 和 网 络 带宽 的 快速 消 厅 
颈 ， 成 为 集群 作业 的 中 心 点 和 风险 的 


的 介绍 中 可 以 看 到 ，MapReduce 中 的 JobTracler 负 责 作 
0 集群 中 所 有 的 节点 保持 Heartbeat 通 信 ， 了 解 机 器 的 运 
hp 独 一 无 二 的 JobTracker 负 责 了 太 多 的 任务 ， 如 果 
， 那 么 JobTracker 的 任务 量 也 会 随 之 快速 上 涨 ， 造 成 
EE。 这 样 的 最 终结 果 就 是 JobTracler 成 为 集群 的 单 点 瓶 


放心 。 
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终结 
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2) TaskTracker 端 ， 由 于 作业 分 配 信息 过 于 
长 的 Task 分 配 到 同一 个 Node 上 ， 这 样 会 造成 作 


上 简单 ， 有 可 能 将 多 个 资源 消耗 多 或 运行 时 间 
业 的 单 点 失败 或 等 待 时 间 过 长 。 





Ate pe 
等 待 


3) 作业 延迟 过 高 。 在 MapReduce 运 行 作 


之 前 ， 需 要 TaskTracker 汇 报 自己 的 资源 情况 





和 运行 情况 ，JobTracker 根 据 获取 的 信息 分 配 


E 业 ，TaskTracker 获 取 任 务 之 后 再 开始 运行 。 





这 样 的 结果 是 通信 的 延迟 造成 作业 启动 时 间 过 长 





最 显著 的 影响 是 小 作业 并 不 能 及 时 完成 。 


长 。 




















4) 编程 框架 不 够 灵活 。 虽 然 现在 的 MapReduce 框 架 允 许 用 户 自 己 定 义 各 个 阶段 的 处 理 
函数 和 对 象 ， 但 是 MapReduce 框 架 还 是 限制 了 编程 的 模式 及 资源 的 分 配 。 


针对 这 些 问 题 ， 下 面 介 绍 MapReduce 设 计 者 提出 的 下 一 代 Hadoop MapReduce 框 架 《〈 宣 
方 称 为 MRv2/YARN， 为 了 形成 对 比 ， 本 章 将 YARN 称 为 MapReduce V2， 旧 的 MapReduce 框 
架 简称 为 MapReduce V1) 。 


8.1 MapReduce V2 设 计 需 求 


Hadoop MapReduce 框 架 的 设计 者 也 意识 到 了 MapReduce V1 的 缺陷 ， 所 以 他 们 根据 























最 迫切 的 需求 设计 了 新 一 代 Hadoop MapReduce 框 架 。 那 么 MapReduce V2 需要 满足 
迫切 需求 呢 ? 


可 靠 性 (Reliability ) 。 

















可 用 性 (Availability ) 。 














扩展 性 (Scalability ) 。 集 群 应 支持 扩展 到 10 000 个 节点 和 200 000 个 核心 。 
































改 就 能 运行 在 MapReduce V2 上 。 











演化 。 使 用 户 能 够 控制 集群 中 软件 的 升级 。 














可 预测 延迟 (Predictable Latency) 。 提 高 小 作业 的 反应 和 处 理 速 度 。 














集群 利用 率 。 比 如 Map Task 和 Reduce Task 的 资源 共享 等 。 

















MapReduce V2 的 设计 者 还 提出 了 一 些 其 次 需要 满足 的 需求 : 

















支持 除 MapReduce 编 程 框架 外 的 其 他 框架 。 这 样 能 够 扩大 MapReduce V2 的 适 


支持 受 限 和 短期 的 服务 。 














Pol 


人 和 群 。 


向 后 兼容 (Backward Compatibility) 。 保 证 用 户 基于 MapReduce V1 编写 的 程序 无 须 修 


8.2 MapReduce V2 主 要 思想 和 架构 





鉴于 MapReduce V2 的 设计 需求 和 MapReduce V1 中 凸显 的 问题 ， 特 别 是 JobTracker 单 点 
瓶颈 问题 〈 此 问题 影响 着 Hadoop 集 群 的 可 靠 性 、 可 用 性 和 扩展 性 ) ，MapReduce V2 的 主要 
设计 思路 是 将 JobTracker 承 担 的 两 大 块 任务 一 集群 资源 管理 和 作业 管理 进行 分 离 ，〈 其 中 分 
离 出 来 的 集群 资源 管理 由 全 局 的 资源 管理 器 (ResourceManager) 管理 ， 分 离 出 来 的 作业 管 
理由 针对 每 个 作业 的 应 用 主体 (ApplicationMaster) 管理 ) ， 然 后 TaskTracker 演 化 成 节点 管 
理 器 (NodeManager) 。 这 样 全 局 的 资源 管理 器 和 局 部 的 节点 管理 器 就 组 成 了 数据 计算 框 
架 ， 其 中 资源 管理 器 将 成 为 整个 集群 中 资源 最 终 分 配 者 。 针 对 作业 的 应 用 主体 就 成 为 具体 的 
框架 库 ， 负 责 两 个 任务 : 与 资源 管理 器 通信 获取 资源 ， 与 节点 服务 器 配合 完成 节点 的 Task 任 
务 。 图 8-1 是 MapReduce V2 的 结构 图 。 
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图 8-1 MapReduce V2 结构 图 




















(1) 资源 管理 器 

















根据 功能 不 同 将 资源 管理 器 分 成 两 个 组 件 ， 调 度 器 (Scheduler) 和 应 用 管理 器 
(ApplicationManager) 。 调 度 器 根据 集群 中 容量 、 队 列 和 资源 等 限制 ， 将 资源 分 配给 各 个 
正在 运行 的 应 用 。 虽 然 被 称 为 调度 器 ， 但 是 它 仅 负责 资源 的 分 配 ， 而 不 负责 监控 各 个 应 用 的 
执行 情况 和 任务 失败 、 应 用 失败 或 硬件 失败 时 的 重启 任务 。 调 度 器 根据 各 个 应 用 的 资源 需求 
和 集群 各 个 节点 的 资源 容器 (Resource Container， 是 集群 节点 将 自身 内 存 、CPU、 磁 盘 等 资 
源 封装 在 一 起 的 抽象 概念 ) 进行 调度 。 应 用 管理 器 负责 接收 作业 ， 协 商 获取 第 一 个 资源 容器 
于 执行 应 用 的 任务 主题 并 为 重启 失败 的 应 用 主题 分 配 容器 
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(2) 节点 管理 器 





























节点 管理 器 是 每 个 结 点 的 框架 代理 。 它 负责 启动 应 用 的 容器 ， 监 控 容 器 的 资源 使 用 ( 包 
括 CPU、 内 存 、 硬 盘 和 网 络 带宽 等 ) ， 并 把 这 些 用 信息 汇报 给 调度 器 。 应 用 对 应 的 应 用 主体 
负责 通过 协商 从 调度 器 处 获取 资源 容器 ， 并 跟踪 这 些 容器 的 状态 和 应 用 执行 的 情况 。 
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图 8-2 应 用 主体 组 件 事件 流 


集群 每 个 节点 上 都 有 一 个 节点 管理 器 ， 它 主要 负责 ; 
































1) 为 应 用 启用 调度 器 已 分 配给 应 用 的 容器 ; 


























2) 保证 已 启用 的 容器 不 会 使 用 超过 分 配 的 资源 量 ; 











3) 为 task 构 建 容器 环境 ， 包 括 二 进 制 可 执行 文件 ，jars 等 ; 








4) 为 所 在 的 节点 提供 一 个 管理 本 地 存储 资源 的 简单 服务 。 























应 用 程序 可 以 继续 使 用 本 地 存储 资源 ， 即 使 它 没有 从 资源 管理 器 处 申请 。 比 如 : 
MapReduce 可 以 利用 这 个 服务 存储 Map Task 的 中 间 输 出 结果 并 将 其 shuffle 给 Reduce Task. 












































G) 应 用 主体 



































应 用 主体 和 应 用 是 一 一 对 应 的 。 它 主要 有 以 下 职责 : 





1) 与 调度 器 协商 资源 ; 


2) 与 节点 管理 器 合作 ， 在 合适 的 容器 中 运行 对 应 的 组 件 task， 并 监控 这 些 task 执 行 ; 

















3) 如 果 container 出 现 故 障 ， 应 用 主体 会 重新 向 调度 器 申请 其 他 资源 ; 


























4) 计算 应 用 程序 所 需 的 资源 量 ， 并 转化 成 调度 器 可 识别 的 协议 信息 包 ; 









































5) 在 应 用 主体 出 现 故 障 后 ， 应 用 管理 器 会 负责 重启 它 ， 但 由 应 用 主体 自己 从 之 前 保存 
的 应 用 程序 执行 状态 中 恢复 应 用 程序 。 

























































































应 用 主体 有 以 下 组 件 〈 各 个 组 件 的 功能 可 参考 图 8-2) : 





) 事件 调度 组 件 ， 是 应 用 主体 中 各 个 组 件 的 管理 者 ， 负 责 为 其 他 组 件 生成 





























lua 








HF 

















2) 容器 分 配 组 件 ， 负 责 将 Task 的 资源 请 求 翻译 成 发 送 给 调度 器 的 应 用 主体 的 资源 请 求 ， 
并 与 资源 管理 器 协商 获取 资源 。 


























3) 用 户 服务 组 件 ， 将 作业 的 状态 、 计 数 器 、 执 行进 度 等 信息 反馈 给 Hadoop MapReduce 























4) 任务 监听 组 件 ， 负 责 接收 Map 或 Reduce Task 发 送 的 心跳 信息 。 





5) 任务 组 件 ， 负 责 接收 Map 和 Reduce Task 形 成 的 心跳 信息 和 状态 更 新 信息 。 





6) 容器 启动 组 件 ， 通 过 使 节点 管理 器 运行 来 负责 容器 的 启动 。 











D 作业 历史 事件 处 理 组 件 ， 将 作业 运行 的 历史 事件 写 入 HDFS。 














8) 作业 组 件 ， 维 护 作 业 和 组 件 的 状态 。 





(4) 资源 容器 























在 MapReduce V2 中 ， 系 统 资源 的 组 织 形式 是 将 节点 上 的 可 用 资源 分 割 ， 每 一 份 通过 封 


装 组 织 成 系统 的 一 个 资源 单元 ， 即 Container 〈 比 如 固定 大 小 的 内 存 分 片 、CPU 核 心 数 、 网 络 
带宽 量 和 硬盘 空间 块 等 。 在 现在 提出 的 MapReduce V2 中 ， 所 谓 资 源 是 指 内 存 资 源 ， 每 个 节 
点 由 多 个 512MB 或 1GB 大 小 的 内 存 容 器 组 成 ) 。 而 不 是 像 MapReduce V1 中 那样 ， 将 资源 组 织 


成 Map 池 和 Reduce 池 。 应 用 主体 可 以 申请 任意 多 个 该 内 存 整数 倍 大 小 的 容器 。 由 于 将 每 个 节 
































点 上 的 内 存 资源 分 割 成 了 大 小 固定 、 地 位 相同 的 容器 ， 这 些 内 存 容器 就 可 以 在 任务 执行 中 进 
































行 互 换 ， 从 而 提高 利用 率 ， 避 免 了 在 MapReduce V1 中 作业 在 Reduce 池 上 的 瓶颈 问题 和 缺乏 














资源 互 换 的 问题 。 资 源 容器 的 主要 职责 就 是 运行 、 保 存 或 传输 应 用 主体 提交 的 作 y 
储 和 传输 的 数据 。 











或 十 要 存 





8.3 MapReduce V2 设计 细节 








上 面 介绍 了 MapReduce V2 的 主体 设计 思想 和 架构 及 其 各 个 部 分 的 主要 职责 ， 下 面 将 详 


细 介 绍 MapReduce V2 中 的 一 些 设计 细节 ， 让 大 家 更 加 深入 地 理解 MapReduce V2。 


























主体 还 可 以 请 求 同 一 台 机 器 上 的 














昌 把 这 些 需 求 封装 到 调度 器 能 够 识 


量 等 的 限制 。 所 以 为 了 高 效 地 分 配 集群 的 资源 容器 ， 应 用 主体 需要 计算 应 用 的 资源 需求 ， 并 
H. 


应 用 主体 通过 适当 的 资源 需求 描述 来 申请 资源 容器 ， 可 以 包括 一 些 指 定 的 机 器 节点 。 应 











多 个 资源 容器 。 所 有 的 资源 请 求 ; 








程序 容量 和 队列 容 






































别 的 协议 信息 包 中 ， 比 如 <priority， (Chost, rack, *) ， 




















memory，#containers>。 以 MapReduce 为 例 ， 应 用 主体 分 析 input-splits 并 将 其 转化 成 以 host 


为 key 的 转 置 表 发 送 给 资源 管理 器 ， 











发 送 的 信息 中 还 包括 在 其 执行 期 间 随 着 执行 的 进度 应 























对 资源 容器 需求 的 变化 。 调 度 器 解 
应 用 主体 。 如 果 指 定 机 器 上 的 资源 
给 应 用 主体 。 在 有 些 情 况 下 ， 由 于 
为 ， 此 时 它 可 以 拒绝 这 些 资源 并 请 






































析出 应 用 主体 的 请 求 信息 之 后 ， 会 尽量 分 配 请 求 的 资源 给 
不 可 用 ， 还 可 以 将 同一 机 器 或 者 不 同 机 器 上 的 资源 分 配给 
整个 集群 非常 忙碌 ， 应 用 主体 获取 的 资源 可 能 不 是 最 合适 
求 重新 分 配 。 从 上 面 介绍 的 资源 协商 的 过 程 可 以 看 出 ， 













































































主体 可 以 申请 所 需 数量 的 资源 ， 
器 不 允许 应 用 主体 无 限制 地 申请 
制 等 来 控制 应 用 主体 申请 到 的 资源 


















































2. 调 度 











调度 器 收集 所 有 正在 运行 应 
会 根据 应 用 程序 相关 的 约束 〈 如 合 
































MapReduce V2 中 的 资源 并 不 再 是 来 自 map 池 和 reduce 池 ， 而 是 来 自 统 一 的 资源 容器 ， 这 样 应 


而 不 会 因为 资源 并 非 所 需 类 型 而 挂 起 。 需 要 注意 的 是 ， 调 
资源 ， 它 会 根据 应 用 限制 、 用 户 限制 、 队 列 限 制 和 资源 限 
规模 ， 从 而 保证 集群 资源 不 被 浪费 。 





























程序 的 资源 请 求 并 构建 一 个 全 局 的 资源 分 配 计 划 。 调 度 器 
适 的 机 器 ) 和 全 局 约束 (如 队列 资源 总 量 ， 队 列 限制 ， 


























户 限制 等 ) 分 配 资源 。 调 度 器 使 用 
多 个 竞争 关系 的 应 用 程序 间 分 配 资 





























与 容量 调度 类 似 的 概念 ， 采 用 容量 保证 作为 基本 的 策略 在 
源 。 调 度 器 的 调度 步骤 如 下 : 











1) 选择 系统 中 “最 低 服务 "的 队列 。 这 个 队列 可 以 是 等 待 时 间 最 长 的 队列 ， 





间 与 已 分 配 资源 之 比 最 大 的 队列 等 。 


2) 从 队列 中 选择 拥有 最 高 优先 级 的 作业 。 





3) 满足 被 选 出 





MapReduce V2 中 只 有 一 


的 作业 的 资源 请 求 。 























-个 接口 用 于 








M 





或 者 等 待 时 


主体 向 调度 器 请 求 资源 。 接 口 如 下 : 


TT | 


Response allocate (List<ResourceRequest>ask, List<Container 


>release) 


二 一 






































































































































































































































































































































应 用 主体 使 用 这 个 接口 中 的 ResourceRequest 列 表 请 求 特定 的 资源 ， 同 时 使 用 接口 中 的 
Container 列 表 参 数 告 诉 调度 器 自己 释放 的 资源 容器 。 

调度 器 接收 到 应 用 主体 的 请 求 之 后 会 根据 自己 的 全 局 计划 及 各 种 限制 返回 对 请 求 的 回 
复 。 回复 中 主要 包括 三 类 信息 : 最 新 分 配 的 资源 容器 列表 、 在 应 用 主体 和 资源 管理 器 上 次 交 
互 之 后 完成 任务 的 应 用 指定 资源 容器 的 状态 、 当 前 集群 中 应 用 程序 可 用 的 资源 数量 。 应 用 主 
体 可 以 收集 完成 容器 的 信息 并 对 失败 任务 做 出 反应 。 可 用 资源 量 可 以 为 应 用 主体 接 下 来 的 资 
源 申请 提供 参考 ， 比 如 应 用 主体 可 以 使 用 这 些 信息 来 合理 分 配 Map 和 Reduce 各 自 请 求 的 资源 
数量 ， 进 而 防止 死 锁 〈 最 明显 的 情况 是 Reduce 请 求 占 用 所 有 的 剩余 可 用 资源 ) 。 

3. 资 源 监控 

调度 器 定期 从 节点 管理 器 处 收集 已 分 配 资源 的 使 用 信息 。 同 时 ， 调 度 器 还 会 将 已 完成 任 
务 容器 的 状态 设置 为 可 用 ， 以 便 有 需求 的 应 用 申请 使 

4. 应 用 提交 

以 下 是 应 用 提交 的 步骤 。 

1) 用 户 提交 作业 到 应 用 管理 器 。 有 具体 的 步骤 是 在 用 户 提交 作业 之 后 ，MapReduce 框 架 












































为 用 户 分 配 一 个 新 的 应 用 ID， 并 将 应 






































最 后 提交 此 应 用 给 应 用 管理 器 。 






































2) 应 用 管理 器 接受 应 用 提 








的 定义 打包 上 传 到 HDFS 上 

















户 的 应 用 缓存 目录 中 。 
































3) 应 用 管理 器 同调 度 器 协商 获取 运行 应 





体 。 



























































上 主体 所 需 的 第 一 个 资源 容器 ， 并 执行 应 用 主 











4) 应 用 管理 器 将 启动 的 应 用 主体 细节 信息 发 还 给 用 户 ， 以 便 其 监督 应 用 的 进度 。 

















5. 应 用 管理 器 组 件 














应 用 管理 器 负责 启动 系统 中 所 有 应 用 的 应 用 主体 并 管理 其 生命 周期 。 
后 ， 应 用 管理 器 通过 应 用 主体 定期 发 送 的 “心跳 "来 监督 应 用 了 





















































主体 失败 ， 就 需要 将 其 重启 。 














为 了 完成 上 述 任务 ， 应 用 管理 





































































































在 启动 应 用 主体 
E 体 ， 保 证 其 可 用 性 ， 如 果 应 









































图 8-3 MapReduce V2 作业 执行 流程 








1) 调度 协商 组 件 ， 负 责 与 调度 器 协商 应 用 主体 所 需 的 资源 容器 。 


























2) 应 用 主体 容器 管理 组 件 ， 负 责 通过 与 节点 管理 器 通信 来 启动 或 停止 应 用 主体 容器 。 




































































3 应 用 主体 监控 组 件 ， 负 责 监 控 应 用 主体 的 状态 ， 保 证 其 可 用 ， 并 且 在 必要 的 情况 下 
生 启 应 用 主体 。 























fie 














6.MapReduce V2 作 业 执 行 流程 

















于 主要 组 件 发 生 更 改 ，MapReduce V2 中 的 作业 执行 流程 也 有 所 变化 。 作 业 的 执行 流 
程 图 如 图 8-3 所 示 《〈 仅 说 明 主要 流程 ， 一 些 反馈 流程 和 心跳 通信 并 未 标注 ) 。 















































步骤 四 : MapReduce 框 架 接收 用 户 提交 的 作业 ， 并 为 其 分 配 一 个 新 的 应 用 ID， 并 将 应 
的 定义 打包 上 传 到 HDFS 上 用 户 的 应 用 缓存 目录 中 ， 然 后 提交 此 应 用 给 应 用 管理 器 。 










































































步 又 @: 应 用 管理 器 同调 度 器 协商 获取 运行 应 用 主体 所 需 的 第 一 个 资源 容器 。 


























步骤 @: 应 用 管理 器 在 获取 的 资源 容器 上 执行 应 用 主体 。 






































HRO: 应 用 主体 计算 应 用 所 需 资源 ， 并 发 送 资源 请 求 到 调度 器 。 





























GRO: 调度 器 根据 自身 统计 的 可 用 资源 状态 和 应 用 主体 的 资源 请 求 ， 分 配合 适 的 资源 
容器 给 应 用 主体 。 






































HRO: 应 用 主体 与 所 分 配 容器 的 节点 管理 器 通信 ， 提 交 作 业 情 况 和 资源 使 用 说 明 。 


























BO: 节点 管理 器 启用 容器 并 运行 任务 。 




















步骤 @: 应 用 主体 监控 容器 上 任务 的 执行 情况 。 























HRO: 应 用 主体 反馈 作业 的 执行 状态 信息 和 完成 状态 。 
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7.MapReduce V2 系 统 可 














性 保证 























系统 可 用 性 主要 指 MapReduce V2 中 各 个 组 件 的 可 用 性 ， 即 保证 能 使 其 在 失败 之 后 迅速 








恢复 并 提供 服务 ， 比 如 保证 









































资源 管理 器 、 应 用 主体 等 的 可 用 性 。 首 先 介绍 MapReduce V2 如 























保证 MapReduce 应 用 和 应 
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Eo 


























主体 的 可 用 性 。 在 之 前 已 有 介绍 ， 资 源 管理 器 中 的 应 用 管理 器 






































负责 监控 MapReduce 应 用 主体 的 执行 情况 。 在 应 用 主体 发 生 失 败 之 后 ， 应 用 管理 器 仅 重启 应 
主体 ， 再 由 应 用 主体 恢复 某 个 特定 的 MapReduce 作 业 。 应 用 主体 在 恢复 MapReduce 作 业 
叶 ， 有 三 种 方式 可 供 选 择 ， 
































完成 重启 MapReduce 作 业 ;， 重启 未 完成 的 Map 和 Reduce 任 务 ， 向 








主体 标明 失败 时 正在 运行 的 Map 和 Reudce 任 务 ， 然 后 恢复 作业 执行 。 第 一 种 方式 的 代价 























比较 大 ， 会 重复 工作 ;第 二 种 方式 效果 较 好 ， 但 仍 有 可 能 重复 Reduce 任 务 的 部 分 工作 ; 第 三 
方式 最 为 理想 ， 从 失败 点 直接 重新 开始 ， 没 有 任何 重复 工作 ， 但 这 种 方式 对 系统 的 要 求 过 
在 MapReduce V2 中 选择 了 第 二 种 恢复 方式 ， 有 具体 实现 方式 是 : 应 用 管理 器 在 监督 












































MapReduce 任 务 执行 的 同时 记录 日 志 ， 标 明 已 完成 的 Map 和 Reduce 任 务 ; 在 恢复 作业 时 ， 分 


析 日 志 后 重启 未 完成 的 任务 即 可 。 





中 ,使 





接 下 来 介绍 MapReduce 
































V2 如 何 保证 资源 管理 器 的 可 用 性 。 资 源 管理 器 在 运行 服务 过 程 




















ZooKeeper 保 存 资源 管理 的 状态 ， 包 括 应 用 管理 器 进程 情况 、 队 列 定义 、 资 源 分 配 





情况 、 节 点 管理 器 情况 等 信息 。 在 资源 管理 器 失败 之 后 ， 由 资源 管理 器 根据 自己 的 状态 进行 
自我 恢复 。 


8.4 MapReduce V2 优 势 





1) 分 散 了 JobTracler 的 任务 。 资 源 管 理 任务 由 资源 管理 器 负责 ， 作 业 启动 、 运 行 和 监测 
任务 由 分 布 在 集群 节点 上 的 应 用 主体 负责 。 这 样 大 大 减缓 了 MapReduce V1 中 JobTracker 单 点 
瓶颈 和 单 点 风险 的 问题 ， 大 大 提高 了 集群 的 扩展 性 和 可 用 性 。 
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2) 在 MapReduce V2 中 应 用 主体 (ApplicationMaster) 是 一 个 用 户 可 自 定制 的 部 分 ， 
此 用 户 可 以 针对 编程 模型 编写 自己 的 应 用 主体 程序 。 这 样 大 大 扩展 了 MapReduce V2 的 适 
















































































3) 在 资源 管理 器 上 使 用 ZooKeeper 实 现 故障 转移 。 当 资源 管理 器 故障 时 ， 备 用 资源 管理 
器 将 根据 保存 在 ZooKeeper 中 的 集群 状态 快速 启动 。MapReduce V2 支持 应 用 程序 指定 检查 

点 。 这 就 能 保证 应 用 主体 在 失败 后 能 迅速 地 根据 HDFS 上 保存 的 状态 重启 。 这 两 个 措施 大 大 

提高 了 MapReduce V2 的 可 用 性 。 







































































4) 集群 资源 统一 组 织 成 资源 容器 ， 而 不 像 在 MapReduce V1 中 Map 池 和 Reduce 池 有 所 差 
别 。 这 样 只 要 有 任务 请 求 资源 ， 调 度 器 就 会 将 集群 中 的 可 用 资源 分 配给 请 求 任务 ， 而 无 关 资 
源 类 型 。 这 大 大 提高 了 集群 资源 的 利 












































8.5 ”本章 小 结 


本 章 结合 MapReduce V1 的 缺陷 为 大 家 介绍 了 MapReduce V2， 包 括 设计 需求 、 主 要 设计 
思想 、 设 计 细节 和 相对 于 MapReduce V1 的 优势 。 大 家 应 深入 理解 其 思想 和 架构 ， 以 适应 
MapReduce 发 展 的 新 形势 。 
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本 章 内 容 
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HDFS 的 基本 操作 














HDFS 常 用 Java API 详 解 








HDFS 中 的 读 写 数 据 流 


HDFS 命 令 详 解 


WebHDFS 


本 章 小 结 


HDFS (Hadoop Distributed File System ) 是 Hadoop 项 目的 核心 子 项 目 ， 


























是 Hadoop 主 要 应 


的 一 个 分 布 式 文件 系统 ， 本 章 将 对 它 进行 详细 介绍 。 实 际 上 ，Hadoop 中 有 一 个 综合 性 的 文 





F 系 统 抽象 ， 它 提供 了 文件 系统 实现 的 各 类 接口 ，HDFS 只 是 这 个 抽象 文件 系统 的 一 个 实 


在 本 章 中 ， 我 们 首先 会 对 Hadoop 的 文件 系统 给 予 一 个 总 体 的 介绍 ， 然 后 对 HDFS 的 相关 























地 讲解 ， 包 括 HDFS 的 特点 、 基 本 操作 、 常 用 API 及 读 / 写 数据 流 等 。 


9.1 


Hadoop 的 文件 系统 


Hadoop 整 合 了 众多 文件 系统 ， 它 首先 提供 了 一 个 高 层 的 文件 系统 抽象 


org.apache.hadoop.fs.FileSystem， 这 个 抽象 


现 ， 如 表 9-1 所 示 。 








展示 了 一 个 分 布 式 文件 系统 ， 并 有 几 个 具体 实 















































表 9-1 Hadoop 的 文件 系统 
文件 系统 URI 方 案 | Java 实现 《org.apache hadoop) x 
EHE A A N 和 的 本 地 文件 系统 。 带 有 校 
Local file fs.LocalFileSystem | 的 本 地 文件 {E fs.RawLocalFileSystem 中 
HDFS hdfs hdfs.DistributedFileSystem Hadoop 的 分 布 式 文件 系统 
A P er HTTP 方式 以 只 读 的 方式 访问 HDFS, 
HFTP hftp hdfs.HApFileSystem 用 在 不 同和 的 HDFS 集群 间 揽 制 数据 
HSFTP hsfip hdfs.HsftpFileSystem 支 竺 通过 HTTPS 方式 以 只 读 的 方式 访问 HDFS 
构建 在 其 他 文件 系统 上 进行 归档 文件 的 文件 系 
HAR har fs.HarFileSystem t. Hadoop 归档 文件 主要 用 来 减少 NameNode 的 
内 存 使 用 
Cloudstroe (其 前 身 是 Kosmos 文件 系统 ) 文件 
KFS kts fs.kf's. KosmosFileSystem 系统 是 类 似 于 HDFS 和 Google 的 GFS 的 文件 系 
i. (EH C++ 编写 
FTP fp fs.ftp.FtpFileSystem 由 FTP 服务 器 支持 的 文件 系统 
S3 {本 地 ) sin fs.s3native. NativeS3FileSystem | 4 F Amazon $3 的 文件 系统 
S3(( 基 于 块 ) 3 fs.s3.NativeS3FileSystem & = Toae TEETER VAS RA AN E 





Hadoop 提 供 了 许多 文件 系统 的 接口 ， 



































互 。 比 如 ， 可 以 使 
列 出 本 地 文件 系统 的 




















户 可 使 
9.4.1 节 介绍 的 文件 系统 命令 行 接口 进行 Hadoop 文 件 系统 的 操作 。 如 果 想 
目录 ， 那 么 执行 以 下 s 








URI 方 案 选 取 合适 的 文件 系统 来 实现 交 





ell 命 令 即 可 : 


一 
hadoop fs-ls file: /// 
==== = == 


(1) 接口 


Hadoop 是 使 





























的 。 事实 上 ， 前 面 使 














Java 编 写 的 ， 而 Hadoop 中 不 同文 
的 文件 系统 的 shell 就 是 








件 系 统 之 间 的 交互 是 由 Java API 进 行 调节 


























个 Java 应 用 ， 




















它 使 用 Java 文 件 系 统 类 来 提供 











文件 系统 操作 。 即 使 其 他 文件 系统 比如 FTP、S3 都 有 自己 的 访问 工具 ， 这 些 接口 在 HDFS 中 还 
是 被 广泛 使 用 ， 主 要 用 来 进行 Hadoop 文 件 系统 之 间 的 协作 。 
































(2) Thrift 

















上 面 提 到 可 以 通过 Java API 与 Hadoop 的 文件 系统 进行 交互 ， 而 对 于 其 他 非 Java 应 用 访问 
Hadoop 文 件 系统 则 比较 麻烦 。Thriftfs 分 类 单元 中 的 Thrift API 可 通过 将 Hadoop 文 件 系 统 展示 
为 一 个 Apache Thrift 服 务 来 填补 这 个 不 足 ， 让 任何 有 Thrift 绑 定 的 语言 都 能 轻松 地 与 Hadoop 
文件 系统 进行 交互 。Thrift 是 由 Facebook 公 司 开 发 的 一 种 可 伸缩 的 跨 语言 服务 的 发 展 软件 杠 
架 。Thrift 解 决 了 各 系统 间 大 数据 量 的 传输 通信 ， 以 及 系统 之 间 语言 环境 不 同 而 需要 跨 平台 的 
问题 。 在 多 种 不 同 的 语言 之 间 通 信 时 ，Thrift 可 以 作为 二 进 制 的 高 性 能 的 通信 中 间 件 ， 它 支持 
数据 (对象 ) 序列 化 和 多 种 类 型 的 RPC 服 务 。 













































































下 面 来 看 如 何 使 用 Thrift API。 要 使 用 Thrift API， 首 先 要 运行 提供 Thrift 服 务 的 Java 服 务 
器 ， 并 以 代理 的 方式 访问 Hadoop 文 件 系统 。Thrift API 包 含 很 多 其 他 语言 生成 的 sub， 包 括 
C++、Perl、PHP、Python 等 。Thrift 支 持 不 同 的 版 本 ， 因 此 可 以 从 同一 个 客户 代码 中 访问 不 
同 版 本 的 Hadoop 文 件 系统 ， 但 要 运行 针对 不 同 版 本 的 代理 。 









































关于 安装 与 使 用 教程 ， 可 以 参考 src/contrib/thriftfs 目 录 中 关于 Hadoop 分 布 的 参考 文档 。 











(3) C 语 言 库 


Hadoop 提 供 了 映射 Java 文 件 系统 接口 的 C 语 言 库 一 libhdfs。libhdfs 可 以 编写 为 一 个 访问 
HDFS 的 C 语 言 库 ， 实 际 上 ， 它 可 以 访问 任意 的 Hadoop 文 件 系 统 ， 也 可 以 使 用 JNI (Java 
Native Interface) 来 调用 Java 文 件 系统 的 客户 端 。 












































这 里 的 C 语 言 的 接口 和 Java 的 使 用 非常 相似 ， 只 是 稍 滞后 于 Java， 目 前 还 不 支持 一 些 新 特 
性 。 相 关 资 料 可 参见 libhdfs/docs/api 目 录 中 关于 Hadoop 分 布 的 C API 文 档 。 














(4) FUSE 

















FUSE (Filesystem in Userspace) 允许 文件 系统 整合 为 一 个 Unix 文 件 系统 并 在 用 户 空间 









































中 执行 。 通 过 使 用 Hadoop Fuse-DFS 的 contirb 模 块 支持 任意 的 Hadoop 文 件 系统 作为 一 个 标准 


文件 系统 进行 挂 载 ， 便 可 以 使 用 UNIX 的 工具 〈 像 S、cat)》 和 文件 系统 进行 交互 ， 还 可 以 通 




















过 任意 一 种 编程 语言 使 用 POSIX 库 来 访问 


























件 系统 。 


Fuse-DFS 是 用 C 语 言 实现 的 ， 可 使 用 libhdfs 作 为 与 HDFS 的 接口 ， 关 于 如 何 编译 和 运行 














Fuse-DFS， 可 以 参见 src/contrib../fuse-dfs 中 


(5) WebDAV 


WebDAV 是 一 系列 支持 编辑 和 更 新 文件 的 HTTP 的 扩展 。 在 大 部 分 操作 系统 中 ， 


的 相关 文档 。 








WebDAV 共 享 都 可 以 作为 文件 系统 进行 挂 载 ， 因 此 ， 通 过 WebDAV 向 外 提供 HDFS 或 其 他 
Hadoop 文 件 系 统 ， 可 以 将 HDFS 作 为 一 个 标准 的 文件 系统 进行 访问 。 


(6) 其 他 HDFS 接 口 





HDFS 接 口 还 提供 了 以 下 其 他 两 种 特定 


的 接口 。 














HTTP。HDFS 定 义 了 一 个 只 读 接口 ， 


来 在 HTTP 上 检索 目录 列表 和 数据 。 NameNode 





的 嵌入 式 Web 服 务 器 运行 在 50070 端 口上 ， 


以 XML 格 式 提供 服务 ， 文 件数 据 由 DataNode 通 过 





它们 的 Web 服 务 器 50075 端 口 向 NameNode 












































体 。 





可 

















使 用 FTP 客 户 端 和 HDFS 进 行 交 互 。 

















提供 。 这 个 协议 并 不 拘泥 于 某 个 HDFS 版 本 ， 所 以 





户 可 以 自己 编写 使 用 HTTP 从 运行 不 同 版 本 的 Hadoop 的 HDFS 中 读 取 数据 。HftpFileSystem 
就 是 其 中 一 种 实现 ， 它 是 一 个 通过 HTTP 和 HDFS 交 流 的 Hadoop 文 件 系 统 ， 是 HTTPS 的 变 

















TP。Hadoop 接 口中 还 有 一 个 HDFS 的 FTP 接 口 ， 它 允许 使 用 FTP 协 议和 HDFS 交 互 ， 即 





9.2 ”HDFS 简 介 











HDFS 是 基于 流 数 据 模式 访问 和 处 理 超大 文件 的 需求 而 开发 的 ， 它 可 以 运行 于 廉价 的 商 
服务 器 上 。 总 的 来 说 ， 可 以 将 HDFS 的 主要 特点 概括 为 以 下 几 点 。 
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) 处 理 超大 文件 

















这 里 的 超大 文件 通常 是 指数 百 MB、 甚 至 数 百 TB 大 小 的 文件 。 目 前 在 实际 应 用 中 ，HDFS 
已 经 能 用 来 存储 管理 PB (PeteBytes) 级 的 数据 了 。 在 雅虎 ，Hadoop 集 群 也 已 经 扩展 到 了 4 
000 个 区 点 。 


























(2) 流 式 地 访问 数据 


HDFS 的 设计 建立 在 更 多 地 响应 “一 次 写 入 、 多 次 读 取 ”任务 的 基础 之 上 。 这 意味 着 一 个 
数据 集 一 旦 由 数据 源 生成 ， 就 会 被 复制 分 发 到 不 同 的 存储 节点 中 ， 然 后 响应 各 种 各 样 的 数据 
分 析 任 务 请 求 。 在 大 多 数 情况 下 ， 分 析 任 务 都 会 涉及 数据 集中 的 大 部 分 数据 ， 也 就 是 说 ， 对 
HDFS 来 说 ， 请 求 读 取 整 个 数据 集 要 比 读 取 一 条 记录 更 加 高 效 。 


























G) 运行 于 廉价 的 商用 机 器 集群 上 


























Hadoop 设 计 对 硬件 需求 比较 低 ， 只 需 运 行 在 廉价 的 商用 硬件 集群 上 ， 而 无 需 昂 贵 的 高 
性 机 器 。 廉 价 的 商用 机 也 就 意味 着 大 型 集群 中 出 现 节点 故障 情况 的 概率 非常 高 。 这 就 要 求 
在 设计 HDFS 时 要 充分 考虑 数据 的 可 靠 性 、 安 全 性 及 高 可 用 性 。 




































































正 是 由 于 以 上 的 种 种 考虑 ， 我 们 会 发 现 ， 现 在 的 HDFS 在 处 理 一 些 特定 问题 时 不 但 没有 
优势 ， 而 且 还 有 一 定 的 局 限 性 ， 主 要 表现 在 以 下 几 方面 。 





(1) 不 适合 低 延 迟 数据 访问 























如 果 要 处 理 一些 用 户 要 求 时 间 比 较 短 的 低 延 迟 应 用 请 求 ， 则 HDFS 不 适合 。HDFS 是 为 了 
处 理 大 型 数据 集 分 析 任 务 ， 主 要 是 为 达到 高 的 数据 吞吐 量 而 设计 的 ， 这 就 要 求 可 能 以 高 延迟 




















作为 代价 。 目 前 有 一 些 补充 方案 ， 比 如 使 用 HBase， 通 过 上 层 数据 管理 项 目 来 尽 可 能 地 弥补 











这 个 不 足 。 


(2) 无 法 高 效 存储 大 量 小 文件 


yuk 


在 Hadoop 中 需要 用 NameNode (名 称 节点 ) 来 管理 文件 系统 的 元 数据 ， 以 响应 客户 端 请 
求 返回 文件 位 置 等 ， 因 此 文件 数量 大 小 的 限制 要 由 NameNode 来 决定 。 例 如 ， 每 个 文件 、 索 
引 目录 及 块 大 约 占 100 字 节 ， 如 果 有 100 万 个 文件 ， 每 个 文件 占 一 个 块 ， 那 么 至 少 要 消耗 
200MB 内 存 ， 这 似乎 还 可 以 接受 。 但 如 果 有 更 多 文件 ， 那 么 NameNode 的 工作 压力 更 大 ， 检 
索 处 理 元 数据 所 需 的 时 间 就 不 可 接受 了 。 












































(3) 不 支持 多 用 户 写 入 及 任意 修改 文件 














在 HDFS 的 一 个 文件 中 只 有 一 个 写 入 者 ， 而 且 写 操作 只 能 在 文件 末尾 完成 ， 即 只 能 执行 
追加 操作 。 目 前 HDFS 还 不 支持 多 个 用 户 对 同一 文件 的 写 操作 以 及 在 文件 任意 位 置 进行 修 
改 。 























当然 ， 以 上 几 点 都 是 当前 的 问题 ， 相 信 随 着 研究 者 的 努力 ，HDFS 会 更 加 成 熟 ， 可 以 满 
足 更 多 的 应 用 需要 。 以 下 链接 是 Hadoop 的 一 些 热 点 研究 方向 ， 读 者 可 以 自行 参考 ; 


而 




















http://wiki. apache.org/hadoop/ProjectSuggestions. 


9.3 HDFS 体 系 结构 


想 要 了 解 HDFS 的 体系 结构 ， 首 先 从 HDFS 的 相关 概念 入 手 ， 下 面 将 介绍 HDFS 中 的 几 个 








9.3.1 HDFS 的 相关 概念 
1. 块 (Block) 


我 们 知道 ， 在 操作 系统 中 都 有 一 个 文件 块 的 概念 ， 文 件 以 块 的 形式 存储 在 磁盘 中 ， 此 处 
块 的 大 小 代表 系统 读 / 写 可 操作 的 最 小 文件 大 小 。 也 就 是 说 ， 文 件 系统 每 次 只 能 操作 磁盘 块 大 
小 的 整数 倍数 据 。 通 常 来 说 ， 一 个 文件 系统 块 大 小 为 几 千 字 节 ， 而 磁盘 块 大 小 为 512 字 节 。 
文件 的 操作 都 由 系统 完成 ， 这 些 对 用 户 来 说 都 是 透明 的 。 




















这 里 ， 我 们 所 要 介绍 的 HDFS 中 的 块 是 一 个 抽象 的 概念 ， 它 比 上 面 操作 系统 中 所 说 的 块 
要 大 得 多 。 在 配置 Hadoop 系 统 时 会 看 到 ， 它 的 默认 块 大 小 为 64MB。 和 单机 上 的 文件 系统 相 
同 ，HDFS 分 布 式 文件 系统 中 的 文件 也 被 分 成 块 进行 存储 ， 它 是 文件 存储 处 理 的 逻辑 单元 
〈 如 果 没 有 特别 指出 ， 后 文中 所 描述 的 块 都 是 指 HDFS 中 的 块 ) 。 





























HDFS 作 为 一 个 分 布 式 文件 系统 ， 设 计 是 用 来 处 理 大 文件 的 ， 使 用 抽象 的 块 会 带 来 很 多 
好 处 。 一 个 好 处 是 可 以 存储 任意 大 的 文件 而 又 不 会 受到 网 络 中 任 一 单个 节点 磁盘 大 小 的 限 
制 。 可 以 想象 一 下 ， 单 个 节点 存储 100TB 的 数据 是 不 可 能 的 ， 但 是 由 于 逻辑 块 的 设计 ，HDFS 
可 以 将 这 个 超大 的 文件 分 成 众多 块 ， 分 别 存储 在 集群 的 各 个 机 器 上 。 另 外 一 个 好 处 是 使 用 抽 
象 块 作为 操作 的 单元 可 以 简化 存储 子 系统 。 这 里 之 所 以 提 到 简化 ， 是 因为 这 是 所 有 系统 的 追 
求 ， 而 对 故障 出 现 频 繁 、 种 类 繁多 的 分 布 式 系统 来 说 ， 简 化 就 显得 尤为 重要 。 在 HDFS 中 块 
的 大 小 固定 ， 这 样 它 就 简化 了 存储 系统 的 管理 ， 特 别 是 元 数据 信息 可 以 和 文件 块 内 容 分 开 存 
储 。 不 仅 如 此 ， 块 更 有 利于 分 布 式 文件 系统 中 复制 容错 的 实现 。 在 HDFS 中 ， 为 了 处 理 节点 
故障 ， 默 认 将 文件 块 副本 数 设 定 为 3 份 ， 分 别 存储 在 集群 的 不 同 节点 上 。 当 一 个 块 损坏 时 ， 
系统 会 通过 NameNode 获 取 元 数据 信息 ， 在 另外 的 机 器 上 读 取 一 个 副本 并 进行 存储 ， 这 个 过 
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程 对 用 户 来 说 都 是 透明 的 。 当 然 ， 这 里 的 文件 块 副本 元 余 量 可 以 通过 文件 进行 配置 ， 比 如 在 
有 些 应 用 中 ， 可 能 会 为 操作 频率 较 高 的 文件 块 设置 较 高 的 副本 数量 以 提高 集群 的 吞吐 量 。 






































在 HDFS 中 ， 可 以 通过 终端 命令 直接 获得 文件 和 块 信息 ， 比 如 以 下 命令 可 以 列 出 文件 系 
统 中 组 成 各 个 文件 的 块 (有关 HDFS 的 命令 ， 将 会 在 9.4 节 中 详细 讲解 〉: 











| 
hadoop fsck/-files-blocks 


ee | 


2.NameNode fllDataNode 


HDFS 体 系 结构 中 有 两 类 节点 ， 一 类 是 NameNode， 另 一 类 是 DataNode。 这 两 类 节点 分 
别 承担 Master 和 Worker 的 任务 。NameNode 就 是 Master 管 理 集群 中 的 执行 调度 ，DataNode 就 
是 Worker 具 体 任务 的 执行 节点 。NameNode 管 理 文件 系统 的 命名 空间 ， 维 护 整个 文件 系统 的 
文件 目录 树 及 这 些 文件 的 索引 目录 。 这 些 信息 以 两 种 形式 存储 在 本 地 文件 系统 中 ， 一 种 是 命 
名 空间 镜像 (Namespace image) ， 一 种 是 编辑 日 志 (Editlog) 。 从 NameNode 中 你 可 以 获 
得 每 个 文件 的 每 个 块 所 在 的 DataNode。 需 要 注意 的 是 ， 这 些 信息 不 是 永久 保存 的 ， 
NameNode 会 在 每 次 系统 启动 时 动态 地 重建 这 些 信息 。 当 运行 任务 时 ， 客 户 端 通过 
NameNode 获 取 元 数据 信息 ， 和 DataNode 进 行 交互 以 访问 整个 文件 系统 。 系 统 会 提供 一 个 类 
似 于 POSIX 的 文件 接口 ， 这 样 用 户 在 编程 时 无 须 考虑 NameNode 和 DataNode 的 具体 功能 。 





















































DataNode 是 文件 系统 Worker 中 的 节点 ， 用 来 执行 具体 的 任务 : 存储 文件 块 ， 被 客户 端 和 
NameNode 调 用 。 同 时 ， 它 会 通过 心跳 (Heartbeat) 定时 向 NameNode 发 送 所 存储 的 文件 块 


信息 。 


























9.3.2 HDFS 的 体系 结构 








如 图 9-1 所 示 ，HDFS 采 月 
数目 的 DataNode 组 成 的 。 
E 间 (Namespace) 以 及 客户 端 对 


负责 管 
页 此 








个 NameNode 和 一 定 
系统 的 名 字 空 
点 运行 一 个 DataNode 进 程 ， 负 
间 ， 用 户 能 够 以 文件 的 形式 在 上 面 存储 数据 。 




















据 块 ， 这 些 块 存储 在 一 组 DataNode 上 。NameNode 执 行文 件 系 统 


开 、 关 闭 、 


g 





到 命名 文件 或 目录 。 它 也 负责 确定 





Master/Slave 架 构 对 文件 系统 进行 管理 。 


管理 它 所 在 节 


一 个 HDFS 集 群 是 由 一 
NameNode 是 一 个 中 心服 务 器 ， 负 责 管理 文件 
文件 的 访问 。 集 群 中 的 DataNode 一 般 是 一 个 节 
点 上 的 存储 。HDFS 展 示 了 文件 系统 的 名 字 空 
从 内 部 看 ， 一 个 文件 其 实 被 分 成 一 个 或 多 个 数 
的 名 字 空 间 操作 ， 比 如 打 
数据 块 到 具体 DataNode 节 点 的 映射 。 











DataNode 负 责 处 理 文件 系统 客户 端的 读 / 写 请 求 。 在 NameNode 的 统一 调度 下 进行 数据 块 的 创 


建 、 删 除 和 复制 。 


副本 存放 与 读 取 策略 


本 的 存放 是 HDFS 可 靠 


H 








优化 的 副本 存放 策略 也 正 是 HDFS 区 分 于 其 他 











和 性 和 性 能 的 关键 ， 
大 部 分 分 布 式 文件 系统 的 





E: 





种 称 为 机 架 感知 Crackaware) 的 策略 来 改 














EE 要 特性 。HDFS 采 
进 数 据 的 可 靠 性 、 性 和 网 络 带 宽 的 利用 
计算 机 组 成 的 集群 上 ， 不 同 机 架 上 的 两 台 机 器 
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大 型 HDFS 实 例 一 般 运 行 在 跨越 多 个 机 架 的 
之 间 的 通信 需要 经 过 交换 机 ， 这 样 会 增加 数据 








传输 的 成 本 。 在 大 多 数 情况 下 ， 同 一 个 机 架 内 
间 的 带宽 大 。 


的 两 台 机 器 间 的 带宽 会 比 不 同 机 架 的 两 台 机 器 











HÆ 1 


图 9-1 HDFS 的 体系 结构 








方面 ， 通 过 一 个 机 架 感 知 的 过 程 ，NameNode 可 以 确定 每 个 DataNode 所 属 的 机 架 ID 。 
目前 HDFS 采 用 的 策略 就 是 将 副本 存放 在 不 同 的 机 架 上 ， 这 样 可 以 有 效 防止 整个 机 架 失 效 时 
数据 的 丢失 ， 并 且 允 许 读数 据 的 时 候 充分 利用 多 个 机 架 的 带宽 。 这 种 策略 设置 可 以 将 副本 均 
匀 地 分 布 在 集群 中 ， 有 利于 在 组 件 失效 情况 下 的 负载 均衡 。 但 是 ， 因 为 这 种 策略 的 一 个 写 操 
作 需 要 传输 数据 块 到 多 个 机 架 ， 这 增加 了 写 操作 的 成 本 。 
















































































举例 来 看 ， 在 大 多 数 情况 下 ， 副 本 系数 是 3，HDFS 的 存放 策略 是 将 一 个 副本 存放 在 本 地 
机 架 的 节点 上 ， 另 一 个 副本 放 在 同一 机 架 的 另 一 个 节点 上 ， 第 三 个 副本 放 在 不 同 机 架 的 节点 
上 。 这 种 策略 减少 了 机 架 间 的 数据 传输 ， 提 高 了 写 操作 的 效率 。 机 架 的 错误 远 比 节点 的 错误 
少 ， 所 以 这 个 策略 不 会 影响 数据 的 可 靠 性 和 可 用 性 。 同 时 ， 因 为 数据 块 只 放 在 两 个 不 同 的 机 
架 上 ， 所 以 此 策略 减少 了 读 取 数据 时 需要 的 网 络 传输 总 带宽 。 这 一 策略 在 不 损害 数据 可 靠 性 
和 读 取 性 能 的 情况 下 改进 了 写 的 性 能 。 















































另 一 方面 ， 在 读 取 数据 时 ， 为 了 减少 整体 的 带宽 消耗 和 降低 整体 的 带宽 延 时 ，HDFS 会 
尽量 让 读 取 程序 读 取 离 客户 端 最 近 的 副本 。 如 果 在 读 取 程序 的 同一 个 机 架 上 有 一 个 副本 ， 那 
么 就 读 取 该 副本 ; 如 果 一 个 HDFS 和 集群 跨越 多 个 数据 中 心 ， 那 么 客户 端 也 将 首先 读 取 本 地 数 
据 中 心 的 副本 。 











2. 安 全 模式 





NameNode 启 动 后 会 进入 一 个 称 为 安全 模式 的 特殊 状态 。 处 于 安全 模式 的 NameNode 不 
会 进行 数据 块 的 复制 。NameNode 从 所 有 的 DataNode 接 收 心跳 信号 和 块 状态 报告 。 块 状态 报 
告 包 括 了 某 个 DataNode 所 有 的 数据 块 列表 。 每 个 数据 块 都 有 一 个 指定 的 最 小 副本 数 。 当 
NameNode 检 测 确认 某 个 数据 块 的 副本 数目 达到 最 小 值 时 ， 该 数据 块 就 会 被 认为 是 副本 安全 
的 ; 在 一 定 百 分 比 〈 这 个 参数 可 配置 ) 的 数据 块 被 NameNode 检 测 确认 是 安全 之 后 〈 加 上 一 
个 额外 的 30 秒 等 待 时 间 ) ，NameNode 将 退出 安全 模式 状态 。 接 下 来 它 会 确定 还 有 哪些 数据 
块 的 副本 没有 达到 指定 数目 ， 并 将 这 些 数据 块 复制 到 其 他 DataNode 上 。9.7 节 中 将 详细 介绍 
安全 模式 的 相关 命令 。 














3. 文 件 安全 





NameNode 的 重要 性 是 显而易见 的 ， 没 有 它 客户 端 将 无 法 获得 文件 块 的 位 置 。 在 实际 应 
中 ， 如 果 集群 的 NameNode 出 现 故障 ， 就 意味 着 整个 文件 系统 中 全 部 的 文件 会 丢失 ， 因 为 
我 们 无 法 再 通过 DataNode 上 的 文件 块 来 重 构 文 件 。 下 面 简单 介绍 Hadoop 是 采用 哪 种 机 制 来 
确保 NameNode 的 安全 的 。 







































































第 一 种 方法 是 ， 备 份 NameNode 上 持久 化 存储 的 元 数据 文件 ， 然 后 将 其 转 储 到 其 他 文件 
系统 中 ， 这 种 转 储 是 同步 的 、 原 子 的 操作 。 通 常 的 实现 方法 是 ， 将 NameNode 中 的 元 数据 转 
储 到 远程 的 NFS 文 件 系统 中 。 











第 二 种 方法 是 ， 系 统 中 同步 运行 一 个 Secondary NameNode (二 级 NameNode) 。 这 个 
节点 的 主要 作用 就 是 周期 性 地 合并 编辑 日 志 中 的 命名 空间 镜像 ， 以 避免 编辑 日 志 过 大 。 





























Secondary NameNode 的 运行 通常 需要 大 量 的 CPU 和 内 存 去 做 合并 操作 ， 这 就 要 求 其 运行 在 
一 台 单独 的 机 器 上 。 在 这 台 机 器 上 会 存储 合并 过 的 命名 空间 镜像 ， 这 些 镜像 文件 会 在 
NameNode 罕 机 后 做 替补 使 以 最 大 限度 地 减少 文件 的 损失 。 但 是 ， 需 要 注意 的 是 ， 
Secondary NameNode 的 同步 备份 总 会 滞后 于 NameNode， 所 以 损失 是 必然 的 。 有 关 文 件 系 
统 镜像 和 编辑 日 志 的 详细 介绍 请 参见 第 10 章 。 












































9.4 ”HDFS 的 基本 操作 





本 节 将 对 HDFS 的 命令 行 操作 及 其 Web 界 面 进 行 介绍 。 


9.4.1 HDFS 的 命令 行 操作 


可 以 通过 命令 行 接口 来 和 HDFS 进 行 交 互 。 当 然 ， 命 令 行 接口 只 是 HDFS 的 访问 接口 之 
一 ， 它 的 特点 是 更 加 简单 直观 ， 便 于 使 用 ， 可 以 进行 一 些 基本 操作 。 在 单机 上 运行 Hadoop、 
执行 单机 伪 分 布 〈 笔 者 的 环境 为 Windows 下 的 单 节点 情况 ， 与 其 他 情况 下 命令 行 一样 ， 大 家 
可 自行 参考 ) ， 具 体 的 安装 与 配置 可 以 参看 本 书 第 2 章 ， 随 后 我 们 会 介绍 如 何 运行 在 集群 机 
器 上 ， 以 支持 可 扩展 性 和 容错 。 


























在 单机 伪 分 布 的 配置 中 需要 修改 两 个 配置 属性 。 第 一 个 需要 修改 的 配置 文件 属性 为 
fs.defaultname， 并 将 其 设置 为 hdfs: Wiocalhosty， 用 来 设 定 一 个 默认 的 Hadoop 文 件 系统 ， 再 
使 用 一 个 hdfsURI 来 配置 说 明 ，Hadoop 默 认 使 用 HDFS 文 件 系 统 。HDFS 的 守护 进程 会 通过 这 
个 属性 来 为 NameNode 定 义 HDFS 中 的 主机 和 端口 。 这 里 在 本 机 localhost 运 行 HDFS， 其 端口 
采用 默认 的 8020。HDFS 的 客户 端 可 以 通过 这 个 属性 访问 各 个 节点 。 






















































































第 二 个 需要 修改 的 配置 文件 属性 为 dfsreplication， 因 为 采用 单机 伪 分 布 ， 所 以 不 支持 副 
本 ，HDFS 不 可 能 将 副本 存储 到 其 他 两 个 节点 ， 因 此 要 将 配置 文件 中 默认 的 副本 数 3 改 为 1。 




















下 面 就 具体 介绍 如 何 通过 命令 行 访问 HDFS 文 件 系统 。 本 节 主 要 讨论 一 些 基本 的 文件 操 
作 ， 比 如 读 文 件 、 创 建文 件 存储 路 径 、 转 移 文件 、 删 除 文件 、 列 出 文件 列表 等 操作 。 在 终端 
中 我 们 可 以 通过 输入 fs-help 获 得 HDFS 操 作 的 详细 帮助 信息 。 

















首先 ， 我 们 将 本 地 的 一 个 文件 复制 到 HDFS 中 ， 操 作 命 令 如 下 : 


一 
hadoop fs-copyFromLocal testInput/hello.txt 
hdfs: //localhost/user/ubuntu/In/hello.txt 


| 














这 条 命令 调用 了 Hadoop 的 终端 命令 fs。Fs 支 持 很 多 子 命令 ， 这 里 使 用 -copyFromLocal 命 
令 将 本 地 的 文件 hello.txt 复 制 到 HDFS 中 的 /user/ubuntu/In/hello.txt 下 。 事 实 上 ， 使 用 fs 命令 可 以 
省 略 URI 中 的 访问 协议 和 主机 名 ， 而 直接 使 用 配置 文件 core-site.xml 中 的 默认 属性 值 
hdfs: Wiocalhost， 即 命令 改 为 如 下 形式 即 可 : 




































































| 
hadoop fs-copyFromLocal 
testInput/hello.txt/user/ubuntu/In/hello.txt 


Oe =~” oe | 











其 次 ， 看 如 何 将 HDFS 中 的 文件 复制 到 本 机 ， 操 作 命令 如 下 : 








| 
hadoop fs-copyToLocal/user/ubuntu/In/hello.txt 
testInput/hello.copy.txt 


和 














命令 执行 后 ， 用 户 可 查看 根 目 录 testInput 文 件 夹 下 的 hello.copy.txt 文 件 以 验证 完成 从 
HDFS 到 本 机 的 文件 复制 。 








下 面 查 看 创建 文件 夹 的 方法 : 


ct 
hadoop fs-mkdir testDir 


二 一 

















最 后 ， 用 命令 行 查看 HDFS 文 件 列表 : 





e: 

hadoop fs-lsr In 

-rw-r--r--1 ubuntu supergroup 348624 2012-03-11 11: 
34/user/ubuntu/In/CHANGES.txt 

-rw-r--r--1 ubuntu supergroup 13366 2012-03-11 11: 
34/user/ubuntu/In/LICENSE.txt 

-rw-r--r--1 ubuntu supergroup 101 2012-03-11 11: 
34/user/ubuntu/In/NOTICE.txt 

-rw-r--r--1 ubuntu supergroup 1366 2012-03-11 11: 
34/user/ubuntu/In/README.txt 

-rw-r--r--1 ubuntu supergroup 13 2012-03-17 15: 
14/user/ubuntu/In/hello.txt 


一 


从 以 上 文件 列表 可 以 看 型 
果 第 一 列 是 文件 属性 ， 第 二 殉 


便 ， 笔 者 配置 环境 中 的 副本 
文件 夹 下 的 hello.txt 文 件 。 





， 命 令 返 回 的 结果 和 Linux 下 ls-! 命 令 返 回 的 结果 相似 。 返 回 结 
是 文件 的 副本 因子 ， 而 这 是 传统 的 Linux 系 统 没有 的 。 为 了 方 

















因 











子 设置 为 1， 所 以 这 里 显示 为 1， 我们 也 看 到 了 从 本 地 复制 到 In 


9.4.2 HDFS 的 Web 界 面 


在 部 署 好 Hadoop 集 群 之 后 ， 便 可 以 直接 通过 http: /NameNodeIP: 50070 访 问 HDFS 的 
Web 界 面 了 。HDFS 的 Web 界 面 提供 了 基本 的 文件 系统 信息 ， 其 中 包括 集群 启动 时 间 、 版 本 
号 、 编 译 时 间 及 是 否 又 升级 。 


























HDEFS 的 Web 界 面 还 提供 了 文件 系统 的 基本 功能 : Browse the filesystem 〈 浏 览 文件 系 
统 ) ， 点 击 链 接 即 可 看 到 ， 它 将 HDFS 的 文件 结构 通过 目录 的 形式 展现 出 来 ， 增 加 了 对 文件 
系统 的 可 读 性 。 此 外 ， 可 以 直接 通过 Web 界 面 访问 文件 内 容 。 同 时 ，HDFS 的 Web 界 面 还 将 该 
文件 块 所 在 的 节点 位 置 展现 出 来 。 可 以 通过 设置 Chunksize to view 来 设置 一 次 读 取 并 展示 的 
文件 块 大 小 。 

















除了 在 本 节 中 展示 的 信息 之 外 ，HDFS 的 Web 界 面 还 提供 了 NameNode 的 日 志 列表 、 运 行 
中 的 节点 列表 及 宕 机 的 节点 列表 等 信息 。 























9.5 HDFS 常 用 Java API 详 解 








9.1 中 已 经 了 解 了 Java API 的 
件 系 统 进行 交互 的 API。 





深入 介绍 Hadoop 的 Filesy stem 类 与 Hadoop 文 














9.5.1 ”使 用 Hadoop URL 读 取 数 据 























如 果 想 从 Hadoop 中 读 取 数据 ， 最 简单 的 办 法 就 是 使 用 java.net.URL 对 象 打开 一 个 数据 
流 ， 并 从 中 读 取 数据 ， 一 般 的 调用 格式 如 下 : 


1 
InputStream in=null; 
try{ 
in=new URL ("hdfs: //NameNodeIP/path") .openStream () ; 
//process in 
}finally{ 
IOUtils.closeStream (in) ; 
} 


二 一 



































这 里 要 进行 的 处 理 是 ， 通 过 FsUrlStreamHandlerFactory 实例 来 调用 在 URL 中 的 setURL- 
StreamHandlerFactory 方 法 。 这 种 方法 在 一 个 Java 虚 拟 机 中 只 能 调用 一 次 ， 因 此 放 在 一 个 静 
态 方法 中 执行 。 这 意味 着 如 果 程 序 的 其 他 部 分 也 设置 了 一 个 URLStreamHandlerFactory， 那 
么 会 导致 无 法 再 从 Hadoop 中 读 取 数据 。 


















































读 取 文 件 系 统 中 的 路 径 为 hdfs: //NameNodeIP/user/ubuntu/In/hello.txt 的 文件 hello.txt， 如 
例 9-1 所 示 。 这 里 假设 hello.txt 的 文件 内 容 为 “Hello Hadoop! ”。 




















例 9-1: 使 用 URLStreamHandler 以 标准 输出 显示 Hadoop 文 件 系统 文件 


一 
package cn.edn.ruc.cloudcomputing.book.chapter09; 
import java.io.*; 
import java.net.URL; 
import org.apache.hadoop.fs.FsUrlStreamHandlerFactory 
import org.apache.hadoop.fs.Path 
import org.apache.hadoop.filecache.DistributedCache; 


import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

public class URLCat{ 

static{ 

URL.setURLStreamHandlerFactory (new 
FsUrlStreamHandlerFactory () ); 

} 

public static void main (String[]args) throws Exception{ 

InputStream in=null; 

try{ 

in=new URL (args[0]) .openStream () ; 

IOUtils.copyBytes (in, System.out, 4096, false) ; 

}finally{ 

IoUtils.closeStream (in) ; 

} 

} 

} 


| Pem | 


然后 在 Eclipse 下 设置 程序 运行 参数 为 : hdfs: /NameNodeIP/user/ubuntu/In/hello.txt, iz 
行程 序 即 可 看 到 hello.txt 中 的 文本 内 容 。 























需要 说 明 的 是 ， 这 里 使 用 了 Hadoop 中 简洁 的 IOUtils 类 来 关闭 finally 子 句 中 的 数据 流 ， 
时 复制 输出 流 之 间 的 字 节 CSystem.out) 。 例 9-1 中 用 到 的 IOUtils.copy Bytes() 方法 ， 其 二 
的 两 个 参数 ， 前 者 表示 复制 缓冲 区 的 大 小 ， 后 者 表示 复制 后 关闭 数据 流 。 





可 
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9.5.2 ”使 用 FileSystem API 读 取 数 





w 

















9.5.1 ” 节 提 到 在 应 用 中 会 出 现 不 能 使 用 URLStreamHandlerFactory 的 情况 ， 这 时 就 需要 
使 用 FileSystem 的 API 打 开 一 个 文件 的 输入 流 了 。 






































文件 在 Hadoop 文 件 系统 中 被 视 为 一 个 Hadoop Path 对 象 。 我 们 可 以 把 一 个 路 径 视 为 
Hadoop 的 文件 系统 URI， 比 如 上 文中 的 hdfs: //localhost/user/ubuntu/In/hello.txt。 








FileSy stem API 是 一 个 高 层 抽象 的 文件 系统 API， 所 以 ， 首 先 要 找到 这 里 的 文件 系统 实例 
HDFS。 取 得 FileSystem 实 例 有 两 种 静态 工厂 方法 : 





public static FileSystem get (Configuration conf) throws IOException 


public static FileSy stem get (URI uri, Configuration conf) throws IOException 








Configuration 对 象 封装 了 一 个 客户 端 或 服务 器 的 配置 ， 这 是 用 路 径 读 取 的 配置 文件 设置 
的 ， 一 般 为 conf/core-site.xml。 第 一 个 方法 返回 的 是 默认 文件 系统 ， 如 果 没 有 设置 ， 则 为 默 
认 的 本 地 文件 系统 。 第 二 个 方法 使 用 指定 的 URI 方 案 决 定 文件 系统 的 权限 ， 如 果 指 定 的 URI 
中 没有 指定 方案 ， 则 退回 默认 的 文件 系统 。 





























有 了 FileSystem 实 例 后 ， 可 通过 open O 方法 得 到 一 个 文件 的 输入 流 : 


Eee 一 二 外 
public FSDataInputStream open (Path f) throws IOException 
public abstract FSDataInputStream open (Path f, int 

bufferSize) throws IOException 


BE 




















第 一 个 方法 直接 使 用 默认 的 4KB 的 缓冲 区 ， 如 例 9-2 所 示 。 























例 9-2: 使 用 FileSystem API 显 示 Hadoop 文 件 系 统 中 的 文件 





一 
public class FileSystemCat{ 
public static void main (String[]args) throws Exception{ 
String uri=args[0]; 


Configuration conf=new Configuration () ; 
FileSystem fs=FileSystem.get (URI.create (uri), conf) ; 
InputStream in=null; 

try{ 

in=fs.open (new Path (uri) ); 

IoUtils.copyBytes (in, System.out, 4096, false) ; 
}finally{ 

IoUtils.closeStream (in) ; 

} 

} 

} 


二 一 


然后 设置 程序 运行 参数 为 hdfs: //localhost/user/ubuntu/In/hello.txt， 运 行程 序 即 可 看 到 
hello.txt 中 的 文本 内 容 “Hello Hadoop! ”。 








下 面 对 例 9-2 中 的 程序 进行 扩展 ， 





关注 FSDataInputStream 。 











FileSystem 中 的 open 方 法 实际 上 返回 的 是 一 个 FSDataInputStream ， 而 不 是 标准 的 java.io 
类 。 这 个 类 是 java.io.DataInputStream 的 一 个 子 类 ， 支 持 随 机 访问 ， 并 可 以 从 流 的 任意 位 置 读 
取 ， 代 码 如 下 : 





= 
public class FSDataInputStream extends DataInputStream 
implements Seekable, PositionedReadable{ 
//implementation elided 
} 


Ts | 











Seekable 接 口 允 许 在 文件 中 定位 并 提供 一 个 查询 方法 用 于 查询 当前 位 置 相对 于 文件 开始 
的 偏 移 量 (getPos() ) ， 代 码 如 下 : 




















p 
public interface Seekable{ 
void seek (long pos) throws IOException; 
long getPos () throws IOException; 
boolean seekToNewSource (long targetPos) throws IOException; 
} 


| auuu: 





























其 中 ， 调 用 seek O 来 定位 大 于 文件 长 度 的 位 置 会 导致 IOException 异常 。 开 发 人 员 并 不 




















H 


常用 seeKT-oNewSource〈) WIS, WIAA FREA — AS, AERA 
找寻 targetPos 制 定 的 位 置 。HDFS 就 采用 这 样 的 方法 在 数据 节点 出 现 故障 时 为 客户 端 提供 可 靠 
的 数据 流 访问 的 。 如 例 9-3 所 示 。 















































例 9-3: 扩展 例 "-2， 通 过 使 用 seek 卖 取 一 次 后 ， 
Hadoop 文 件 系统 中 的 文件 内 容 











所 定位 到 文件 头 第 三 位 ， 再 次 显示 





ee 
package cn.edn.ruc.cloudcomputing.book.chapter09; 
import java.io.*; 
import java.net.URI; 
import java.net.URL; 
import java.util.*; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.filecache.DistributedCache; 
import org.apache.hadoop.conf.*; 
import org.apache.hadoop.io.*; 
import org.apache.hadoop.mapred.*; 
import org.apache.hadoop.util.*; 
public class DoubleCat{ 
public static void main (String[]args) throws Exception{ 
String uri=args[0]; 
Configuration conf=new Configuration O) ; 
FileSystem fs=FileSystem.get (URI.create (uri), conf) ; 
FSDataInputStream in=null; 
try{ 
in=fs.open (new Path (uri) ); 
IOoUtils.copyBytes (in, System.out, 4096, false) ; 
in.seek (3) ; //go back to pos 3 of the file 
IOUtils.copyBytes (in, System.out, 4096, false) ; 
}finally{ 
1OUtils.closeStream (in) ; 
} 
} 
} 


i 


然后 设置 程序 运行 参数 为 hdfs: //localhost/user/ubuntu/In/hello.txt， 运 行程 序 即 可 看 到 





hello.txt 中 的 文本 内 容 “Hello Hadoop! lo Hadoop! ”。 


同时 ，FSDataInputStream 也 实现 了 PositionedReadable 接 口 ， 从 一 个 制定 位 置 读 取 一 部 分 
数据 。 这 里 不 再 详细 介绍 ， 大 家 可 以 参考 以 下 源 代码 。 


[= | 
public interface PositionedReadable{ 
public int read (long position, byte[]buffer, int offset, int 
length) 
throws IOException; 
public void readFully (long position, byte[]buffer, int 
offset, int length) 
throws IOException; 
public void readFully (long position, byte[]buffer) throws 
IOException; 
} 
一 


使 用 。 通 常 我 们 是 依靠 流 数据 














需要 注意 的 是 ，seek O 是 一 个 高 开销 的 操作 ， 需 要 1 


MapReduce 构 建 应 用 访问 模式 ， 而 不 是 大 量 地 执行 sSeek 操 作 。 






































9.5.3 ”创建 目录 














FileSystem 显 然 也 提供 了 创建 目录 的 方法 ， 代 码 如 下 : 


es | 


public boolean mkdirs (Path f) throws IOException 


二 

这 个 方法 会 按照 客户 端 请 求 创建 未 存在 的 父 目 录 ， 就 像 java.io.File 的 mkdirs () 一 样 。 如 
果 目 录 包 括 所 有 父 目 录 且 创建 成 功 ， 那 么 它 会 返回 tue。 事 实 上 ， 一 般 不 需要 特别 地 创建 一 
个 目录 ， 因 为 调用 creat () 时 写 入 文件 会 自动 生成 所 有 的 父 目录 。 


























9.5.4 Be 


FileSystem 还 有 一 系列 创建 文件 的 方法 ， 最 简单 的 就 是 给 拟 创建 的 文件 指定 一 个 路 径 对 
象 ， 然 后 返回 一 个 写 输出 流 ， 代 码 如 下 : 


[| 
public FSDataOutputStream create (Path f) throws IOException 
—_—_—_—_—_—_—_—_——— lOO 





这 个 方法 有 很 多 重 载 方法 ， 例 如 ， 可 以 设 定 是 否 强制 覆盖 原文 件 、 设 定 文件 副本 数量 、 
设置 写 入 文件 缓冲 区 大 小 、 文 件 块 大 小 及 设置 文件 许可 等 。 























还 有 一 个 用 于 传递 回调 接口 的 重 载 方法 Progressable， 通 过 这 个 方法 就 可 以 获得 数据 节点 
写 入 进度 ， 代 码 如 下 : 





[E 
package org.apache.hadoop.util; 
public interface Progressable{ 
public void progress () ; 
} 
es | 


























新 建文 件 也 可 以 使 用 append O 在 一 个 已 有 文件 中 追加 内 容 ， 这 个 方法 也 有 重 载 ， 代 码 
如 下 : 


SSSI 
public FSDataOutputStream append (Path f) throws IOException 
[| 








这 个 方法 对 于 写 入 日 志文 件 很 有 用 ， 比 如 在 重启 后 可 以 在 之 前 的 日 志 中 继续 添加 内 容 ， 
但 并 不 是 所 有 的 Hadoop 文 件 系统 都 支持 此 方法 ， 比 如 HDFS 支 持 ， 但 $3 不 支持 。 









































例 9-4 展 示 了 如 何 将 本 地 文件 复制 到 Hadoop 的 文件 系统 ， 当 Hadoop 调 用 progress() 方法 
时 ， 也 就 是 在 每 64KB 数 据 包 写 入 数据 节点 管道 之 后 ， 打 印 一 个 星 号 来 展示 整个 过 程 。 











例 9-4: 将 本 地 文件 复制 到 Hadoop 文 件 系统 并 显示 进度 





二 一 


public class FileCopyWithProgress{ 

public static void main (String[]args) throws Exception{ 

String localSrc=args[0]; 

String dst=args[1]; 

InputStream in=new BufferedInputStream (new 
FileInputStream (localSrc) ) ; 

Configuration conf=new Configuration O) ; 

FileSystem fs=FileSystem.get (URI.create (dst) , conf) ; 

OutputStream out=fs.create (new Path (dst), new 
Progressable () { 

public void progress () { 

System.out.print ("*") ; 

} 

D: 

IOUtils.copyBytes (in, out, 4096, true) ; 

} 

} 


和 ER 下 














然后 配置 应 用 参数 ， 可 以 看 到 控制 台 输 出 “**#*##*”， 即 上 传 显示 进度 ， 每 写 入 64KB 即 输 
出 一 个 *。 目 前 其 他 文件 系统 写 入 时 都 不 会 调用 progeress O 。 


























9.5.3 节 在 介绍 读数 据 时 提 到 FSDataInputStream ， 这 里 FileSystem 中 的 creat O 方法 也 返 
回 一 个 FSDataOutputStream， 它 也 有 一 个 查询 文件 当前 位 置 的 方法 ， 代 码 如 下 : 








[| 

package org.apache.hadoop.fs; 

public class FSDataOutputStream extends DataOutputStream 
implements Syncable{ 

public long getPos () throws IOException{ 

//implementation elided 

} 

//implementation elided 

} 


| 





但 是 它 与 FSDataInputStream 不同 ，FSDataOutputStream 不 允许 定位 。 这 是 因为 HDFS 只 对 
一 个 打开 的 文件 顺序 写 入 ， 或 者 向 一 个 已 有 的 文件 添加 。 换 句 话说 ， 它 不 支持 对 除 文件 尾部 
以 外 的 其 他 位 置 进行 号 入 ， 这 样 ， 写 入 时 的 定位 就 没有 意义 了 。 





























9.5.5 删除 数据 




















使 用 FileSystem 的 delete ©) 可 以 永久 删除 Hadoop 中 的 文件 或 目录 。 





| 
public boolean delete (Path f, boolean recursive) throws 
IOException 


二 一 
如 果 传 入 的 { 为 空 文件 或 空 目录 ， 那 么 recursive 值 会 被 忽略 。 只 有 当 recursive 的 值 为 true 
时 ， 非 空 的 文件 或 目录 才 会 被 删除 ， 否 则 抛 出 异常 。 


9.5.6 文件 系统 查询 


同样 ，Java API 提 供 了 文件 系统 的 基本 查询 接口 。 通 过 这 个 接口 ， 可 以 查询 系统 的 元 数 
据 信息 和 文件 目录 结构 ， 并 可 以 进行 更 复杂 的 目录 匹配 等 操作 。 下 面 将 一 一 进行 介绍 。 


.文件 元 数据 : Filestatus 


任何 文件 系统 要 具备 的 重要 功能 就 是 定位 其 目录 结构 及 检索 器 存储 的 文件 和 目录 信息 。 
FileStatus 类 封装 了 文件 系统 中 文件 和 目录 的 元 数据 ， 其 中 包括 文件 长 度 、 块 大 小 、 副 本 、 修 
改 时 间 、 所 有 者 和 许可 信息 等 。 














FileSystem 的 getFileStatus O 方法 提供 了 获取 一 个 文件 或 目录 的 状态 对 象 的 方法 ， 如 例 
9-5 所 示 。 


例 9-5: 获取 文件 状态 信息 


ee | 

public class ShowFileStatusTest{ 

private MiniDFSCluster cluster; //use an in-process HDFS 
cluster for testing 

private FileSystem fs; 

@Before 

public void setUp () throws IOException{ 

Configuration conf=new Configuration () ; 

if (System.getProperty ("test.build.data") ==null) { 

System.setProperty ("test.build.data", "/tmp") ; 

} 

cluster=new MiniDFSCluster (conf, 1, true, null); 

fs=cluster.getFileSystem () ; 

OutputStream out=fs.create (new Path ("/dir/file") ); 

out.write ("content".getBytes ("UTF-8") ); 

out.close () ; 

} 

@After 

public void tearDown ©) throws IOException { 

if (fs! =null) {fs.close ©; } 

if (cluster! =null) {cluster.shutdown O) ; } 

} 

@Test (expected=FileNotFoundException.class) 

public void throwsFileNotFoundForNonExistentFile () throws 


IOException{ 


fs.getFileStatus (new Path ("no-such-file") ) ; 


} 
@Test 


public void fileStatusForFile () throws IOException{ 
Path file=new Path ("/dir/file") ; 
FileStatus stat=fs.getFileStatus (file) ; 
assertThat (stat.getPath O .toUri © .getPath O ， 

is ("/dir/file") ); 
assertThat (stat.isDir (), is (false) ); 
assertThat (stat.getLen (), is (7L) ); 
assertThat (stat.getModificationTime () , 
is (lessThanOrEqualTo (System.currentTimeMillis ()))); 
assertThat (stat.getReplication (), is ( (short) 1) ); 
assertThat (stat.getBlockSize () , is (64*1024*1024L) ) ; 
assertThat (stat.getOwner (), is ("tom") ); 
assertThat (stat.getGroup () , is ("supergroup") ) ; 


assertThat (stat.getPermission () .toString (), is ("rw-r-- 


HD. ¢ 
} 
@Test 





public void fileStatusForDirectory () throws IOException{ 
Path dir=new Path ("/dir") ; 

FileStatus stat=fs.getFileStatus (dir) ; 

assertThat (stat.getPath O .toUri © .getPath © , 


is ("/dir") ); 


assertThat (stat.isDir (), is (true) ); 

assertThat (stat.getLen (), is (OL) ); 

assertThat (stat.getModificationTime O , 

is (lessThanOrEqualTo (System.currentTimeMillis ()))); 
assertThat (stat.getReplication (), is ( (short) 0) ); 
assertThat (stat.getBlockSize (), is (0L) ); 

assertThat (stat.getOwner (), is ("tom") ); 

assertThat (stat.getGroup () , is ("supergroup") ) ; 
assertThat (stat.getPermission () .toString O , is ("rwxr-xr- 


x") YG 
} 
} 


——CpNwTtTlFHER—OHOHKsNoo———oO01lhrO Om | 


如 果 文 件 或 者 目录 不 存在 ， 就 会 抛 出 FileNotFoundException 异 常 ， 如 果 只 对 文件 或 目录 


是 否 存在 感 兴趣 ， 那 么 




















exists O 方法 更 方便 : 


一 
public boolean exists (Path f) throws IOException 


| TaM f | 


2. 列 出 目录 文件 信息 




















查找 文件 或 者 目录 信息 很 有 用 ， 但 是 ， 有 时 需要 列 出 目录 的 内 容 ， 这 需要 使 用 lis- 
tStatus〈) 方法 ， 代 码 如 下 : 














本 
public FileStatus[]listStatus (Path f) throws IOException 
public FileStatus[JlistStatus (Path f, PathFilter filter) 

throws IOException 
public FileStatus[]listStatus (Path[]files) throws IOException 
public FileStatus[]listStatus (Path[]files, PathFilter 

filter) throws IOException 


Eee 
当 传 入 参数 是 一 个 文件 时 ， 它 会 简单 地 返回 长 度 为 1 的 FileStatus 对 象 的 一 个 数组 。 当 传 入 
参数 为 一 个 目录 时 ， 它 会 返回 0 个 或 多 个 FileStatus 对 象 ， 代 表 该 目录 所 包含 的 文件 和 子 目 录 。 














我 们 看 到 listStatus O 有 很 多 重 载 方法 ， 可 以 使 用 PathFilter 来 限制 匹配 的 文件 和 目录 。 
如 果 把 路 径 数组 作为 参数 来 调用 listStatus O 方法 ， 其 结果 与 一 次 对 多 个 目录 进行 查询 、 再 
将 FileStatus 对 象 数组 收集 到 一 个 单一 的 数组 的 结果 是 相同 的 。 当 然 我 们 可 以 感受 到 ， 前 者 更 
为 方便 。 例 9-6 是 一 个 简单 的 示范 。 



































例 9-6: 显示 Hadoop 文 件 系统 中 的 一 个 目录 的 文件 信息 





一 
package cn.edn.ruc.cloudcomputing.book.chapter09; 
import java.util.*; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FileStatus; 
import org.apache.hadoop.fs.FileUtil; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.fs.FileSystem; 
public class ListStatus{ 
public static void main (String[]args) throws Exception{ 
String uri=args[0]; 

Configuration conf=new Configuration () ; 

FileSystem fs=FileSystem.get (URI.create (uri), conf); 
Path[]paths=new Path[args.length]; 

for (int i=0; i<paths.length; i++) { 

paths[i]=new Path (args[i]) ; 

} 


FileStatus[]status=fs.listStatus (paths) ; 
Path[]listedPaths=FileUtil.stat2Paths (status) ; 
for (Path p: listedPaths) { 

System.out.printin (p) ; 

} 


ee 























配置 应 用 参数 可 以 查看 文件 系统 的 目录 ， 可 以 查看 HDFS 中 对 应 文件 目录 下 的 文件 信 








3. 通 过 通配符 实现 目录 筛选 


有 时 候 我 们 需要 批量 处 理 文件 ， 比 如 处 理 日 志文 件 ， 这 时 可 能 要 求 MapRedece 任 务 分 析 
一 个 月 的 文件 。 这 些 文件 包含 在 大 量 目录 中 ， 这 就 要 求 我 们 进行 一 个 通配符 操作 ， 并 使 用 通 
配 符 核对 多 个 文件 。Hadoop 为 通配符 提供 了 两 个 方法 ， 可 以 在 FileSystem 中 找到 : 





























一 
public FileStatus[]globStatus (Path pathPattern) throws 
IOException 
public FileStatus[]globStatus (Path pathPattern, PathFilter 
filter) throws IOException 
ee 











globStatus © 返回 了 其 路 径 匹 配 所 提供 的 FileStatus 对 象 数组 ， 再 按 路 径 进行 排序 ， 其 中 
可 选 的 PathFilter 命 令 可 以 进一步 限定 匹配 。 











表 9-2 是 Hadoop 支 持 的 一 系列 通配符 。 


表 9-2 Hadoop 支持 的 通配符 及 其 作用 






通配符 匹配 功能 


























| Bs | 

? | fa | 匹配 一 个 字符 

ab] | TES] | 匹配 fa b} 中 的 一 个 字符 

ab] | 非 此 字符 和 类别” | 匹配 不 属于 fa b+ 中 的 

[a-b] | 字符 范围 | 匹配 在 (a,b) 范围 内 的 字符 “包括 a,b)，a 在 字典 旺 序 上 要 小 二 等 干 b 


非 此 字符 范围 5 b} sd lil 字符 包括 a,b)，a 在 字 烛 顺序 上 要 小 二 等 于 b 











下 面 通过 例子 进行 详细 说 明 ， 假 设 一 个 日 志文 件 的 存储 目录 是 分 层 组 织 的 ， 其 中 目录 格 
式 为 年 /月 /日 : /2009/12/30、/2009/12/31、/2010/01/01、/2010/01/02。 表 9-3 是 通配符 的 部 分 样 





表 9-3 通配符 使 用 样 例 


























通配符 匹配 结果 
了 2009 /2010 
es (2009/12 /2010/01 
+7127 2009/12/30 /2009/1 2/31 
200* 2009 
200[9-10] 2009 /2010 
1200["012345678] 2009 
*/*/{31,01} ‘2009/12/31 /2010/01/01 
*/{12/31, 01/01} ‘2009/12/31 (2010/01/01 


4.PathFilter 对 象 











使 用 通配符 有 时 也 不 一 定 能 够 精确 地 定位 到 要 访问 的 文件 集合 ， 比 如 排除 一 个 特定 的 文 
件 ， 这 时 可 以 使 用 FileSystem 中 的 listStatus © 和 globStatus O 方法 提供 可 选 的 PathFileter 对 
象 来 通过 编程 的 办 法 控制 匹配 结果 ， 如 下 面 的 代码 所 示 。 



































一 
package org.apache.hadoop.fs; 
public interface PathFilter{ 
boolean accept (Path path); 


Em | 




















下 面 来 看 一 个 PathFilter 的 应 用 ， 如 例 9-7 所 示 。 




















例 9-7: 使 用 PathFilter 排 除 匹配 正则 表达 式 的 目录 





em ) 


public class RegexExcludePathFilter implements PathFilter{ 
private final String regex; 

public RegexExcludePathFilter (String regex) { 
this.regex=regex; 

} 

public boolean accept (Path path) { 


return! path.toString () .matches (regex) ; 
} 
} 


| 


这 个 过 滤器 将 留 下 与 正则 表达 式 不 匹配 的 文件 。 





9.6 ”HDFS 中 的 读 写 数据 流 


在 本 节 中 ， 我 们 将 对 HDFS 的 读 / 写 数据 流 进行 详细 介绍 ， 


何 工作 的 。 





9.6.1 文件 的 读 取 


以 帮助 大 家 理解 HDFS 具 体 是 如 


本 节 将 详细 介绍 在 执行 读 取 操作 时 客户 端 和 HDFS 交 互 过 程 的 实现 ， 以 及 NameNode 和 各 
DataNode 之 间 的 数据 流 是 什么 。 





EIR 


HDFS 





“nay, FSData | 
a E $ InputStream 
ee IVM - “ 
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Distributed 


下 面 将 





围绕 














FileSystem 


一 + 一 


4. ikii 
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datanode 


到 9-2 进 行 具体 讲解 。 


| 

2. 获得 块 位 轩 [| 
ee 

f 
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namenode 





SL ‘eae 


图 9-2 客户 端 从 HDFS 中 读 取 数 据 











首先 ， 客 户 端 通过 调 





FlieSystem 是 HDFS 中 Distri 


DistributedFileSystem 会 通过 RPC 协 议 调 
要 注意 的 是 ，NameNode 只 会 








FileSystem 对 


utedFileSystem 的 


象 中 的 open O 函数 来 读 取 它 需要 














El 
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所 调 











一 个 实例 (参见 图 9-2 第 1 步 )。 
NameNode 来 确定 请 求 文件 块 所 在 





i ee | 


的 数据 。 


OME. RE 








文件 中 开始 的 几 个 块 而 不 是 全 部 返 








本 (参见 








9-2 第 





2 步 ) 。 对 


按照 Hadoop 定 义 


于 每 个 返回 的 块 ， 都 包含 块 所 在 的 DataNode 地 址 。 随 后 ， 这 些 返回 的 DataNode 会 








的 集群 拓扑 结构 得 出 客户 端的 距离 ， 然 后 再 进行 排序 。 如 果 客 户 端 本 身 就 是 


一 个 DataNode， 那 么 它 将 从 本 地 读 取 文件 。 














其 次 ， 


FSDataInput-Stream , 
对 象 ， 这 个 对 象 


DistributedFileSystem 会 向 客户 端 返回 一 个 支持 文件 定位 的 输入 流 对 象 



































于 给 客户 端 读 取 数 据 。FSDataInputStream 包 含 一 个 DFSInputStream 
来 管理 DataNode 和 NameNode 之 间 的 IO 。 








当 以 上 步骤 完成 时 ， 客 户 端 便 会 在 这 个 输入 流 之 上 调用 read〈) 函数 〈 参 见 图 9-2 第 3 
步 ) 。DFSInputStream 对 象 中 包含 文件 开始 部 分 数据 块 所 在 的 DataNode 地 址 ， 首 先 它 会 连接 


包含 文件 第 一 个 块 最 近 的 DataNode。 随 后 ， 在 数据 流 中 





























在 复 调 用 read O 函数 ， 直 到 这 个 块 











全 部 读 完 为 止 〈 参 见 图 9-2 第 4 步 ) 。 当 最 后 一 个 块 读 取 完 毕 时 ，DFSInputStream 会 关闭 连 
接 ， 并 查找 存储 下 一 个 数据 块 距离 客户 端 最 近 的 DataNode (参见 图 9-2 第 5 步 ) 。 以 上 这 些 步 
又 对 客户 端 来 说 都 是 透明 的 。 




















客户 端 按照 DFSInpuStream 打 开 和 DataNode 连 接 返 回 的 数据 流 的 顺序 读 取 该 块 ， 它 也 会 


调用 NameNode 来 检索 下 一 组 块 所 在 的 DataNode 的 位 置信 息 。 当 完成 所 有 文件 的 读 取 时 ， 客 
户 端 则 会 在 FSDataInputStream 中 调用 close O 函数 (参见 图 9-2 第 6 步 )。 


























当然 ，HDFS 会 考虑 在 读 取 中 节点 出 现 故障 的 情况 。 目 前 HDFS 是 这 样 处 理 的 ， 如 果 客户 
端 和 所 连接 的 DataNode 在 读 取 时 出 现 故 障 ， 那 么 它 就 会 去 尝试 连接 存储 这 个 块 的 下 一 个 最 近 


件 信息 。 





的 客户 端 六 


F 行 处 理 ， 这 是 








因 

















的 DataNode， 同 时 它 会 记录 这 个 节点 的 故障 ， 这 样 它 就 不 会 再 去 尝试 连接 和 读 取 块 。 客 户 端 
还 会 验证 从 DataNode 传 送 过 来 的 数据 校 验 和 。 如 果 发 现 一 个 损坏 的 块 ， 那 么 客户 端 将 会 再 尝 
试 从 别 的 DataNode 读 取 数 据 块 ， 向 NameNode 报 告 这 个 信息 ，NameNode 也 会 更 新 保存 的 文 


这 里 要 关注 的 一 个 设计 要 点 是 ， 客 户 端 通过 NameNode 引导 获 取 最 合适 的 DataNode 地 
址 ， 然 后 直接 连接 DataNode 读 取 数 据 。 这 种 设计 的 好 处 在 于 ， 可 以 使 HDFS 扩 展 到 更 大 规模 


为 数据 的 流动 是 在 所 有 DataNode 之 间 分 散 进行 的 ， 同 时 


NameNode 的 压力 也 变 小 了 ， 使 得 NameNode 只 





7 

















通过 它 提供 数据 ， 这 样 就 避免 了 NameNode 














提供 请 求 块 所 在 的 位 置信 息 就 可 以 了 ， 而 








随 着 客户 端 数量 的 增长 而 成 为 系统 瓶颈 。 


9.6.2 文件 的 写 入 


本 小 节 将 对 HDFS 中 文件 的 写 入 过 程 进行 详细 介绍 。 图 9-3 就 是 在 HDFS 中 写 入 一 个 新 文件 





的 数据 流 图 。 

















第 一 ， 客 户 端 通过 调 











DistributedFileSy stem 对象 中 的 creat() 函数 创建 一 个 文件 (参见 




















图 9-3) 。DistributedFileSy stem 通 过 RPC 调 用 在 NameNode 的 文件 系统 命名 空间 中 创建 一 个 新 


文件 ， 此 时 还 没有 相关 的 DataNode 与 之 关联 。 





第 二 ，NameNode 会 通过 多 种 验证 保证 新 的 文件 不 存在 文件 系统 中 ， 并 且 确 保 请 求 客户 
端 拥有 创建 文件 的 权限 。 当 所 有 验证 通过 时 ，NameNode 会 创建 一 个 新 文件 的 记录 ， 如 果 创 


建 失败 ， 则 抛 出 一 个 IOEx 








ception 异 常 ， 如 果 成 功 ， 则 DistributedFileSystem 返 回 一 个 

















FSDataOutputStream 给 客户 端 用 来 写 入 数据 。 这 里 FSDataOutputStream 和 读 取 数 据 时 的 
FSDataInputStream 一 样 都 包含 一 个 数据 流 对 象 DFSOutputStream ， 客 户 端 将 使 用 它 来 处 理 和 


DataNode 及 NameNode 之 




















间 的 通信 。 


第 三 ， 当 客户 端 写 入 数据 时 ，DFSOutputStream 会 将 文件 分 割 成 包 ， 然 后 放 入 一 个 内 部 


队列 ， 我 们 称 为 "数据 队列 


”。DataStreamer 会 将 这 些小 的 文件 包 放 入 数据 流 中 ， 




















DataStreamer 的 作用 是 请 





RNameNode 为 新 的 文件 包 分 配合 适 的 DataNode 存 放 副本 。 返 回 的 





DataNode 列 表 形成 一 个 “管道 "， 假 设 这 里 的 副本 数 是 3， 那 么 这 个 管道 中 就 会 有 3 个 





DataNode。DataStreamer 将 文件 包 以 流 的 方式 传送 给 队列 中 的 第 一 个 DataNode。 第 一 个 


DataNode 会 存储 这 个 包 ， 





中 的 最 后 一 个 DataNode 。 








然后 将 它 推送 到 第 二 个 DataNode 中 ， 随 后 照 这 样 进行 ， 直 到 管道 


j 
Distributed a- aad eer sn 
FileSystem 完 


FSDuta = 
OutputStream 










Datanode 管道 


下 | 


datanode | 





datunode datanode 





图 9-3 客户 端 在 HDFS 中 写 入 数据 

















第 四 ，DFSOutputStream 同时 也 会 保存 一 个 包 的 内 部 队列 ， 用 来 等 待 管道 中 的 DataNode 
返回 确认 信息 ， 这 个 队列 被 称 为 确认 队列 Cackqueue) 。 只 有 当 所 有 管道 中 的 DataNode 都 返 
回 了 写 入 成 功 的 返回 信息 文件 包 ， 才 会 从 确认 队列 中 删除 。 
































当然 HDFS 会 考虑 写 入 失败 的 情况 ， 当 数据 写 入 节点 失败 时 ，HDFS 会 做 出 以 下 反应 。 首 
先 管道 会 被 关闭 ， 任 何在 确认 通知 队列 中 的 文件 包 都 会 被 添加 到 数据 队列 的 前 端 ， 这 样 管道 
中 失败 的 DataNode 都 不 会 丢失 数据 。 当 前 存放 于 正常 工作 DataNode 之 上 的 文件 块 会 被 赋予 
一 个 新 的 身份 ， 并 且 和 NameNode 进 行 关 联 ， 这 样 ， 如 果 失 败 的 DataNode 过 段 时 间 从 故障 中 
恢复 出 来 ， 其 中 的 部 分 数据 块 就 会 被 删除 。 然 后 管道 会 把 失败 的 DataNode 删 除 ， 文 件 会 继续 
被 写 到 管道 中 的 另外 两 个 DataNode 中 。 最 后 NameNode 会 注意 到 现在 的 文件 块 副本 数 没有 达 
到 配置 属性 要 求 ， 会 在 另外 的 DataNode 上 重新 安排 创建 一 个 副本 。 随 后 的 文件 会 正常 执行 写 
入 操作 。 



























































当然 ， 在 文件 块 写 入 期 间 ， 多 个 DataNode 同 时 出 现 故 障 的 可 能 性 存在 ， 但 是 很 小 。 只 要 











dfs.replication.min 的 属性 值 〈 默 认为 1) 成 功 写 入 ， 这 个 文件 块 就 会 被 异步 复制 到 集群 的 其 他 
DataNode 中 ， 直 到 满足 dfsreplication 属 性 值 〈 默 认为 3) 。 











客户 端 成 功 完成 数据 写 入 的 操作 后 ， 就 会 调 

















6 种 close O 函数 关闭 数据 流 〈 参 见 图 9-3 


第 6 步 ) 。 这 步 操作 会 在 连接 NameNode 确 认 文件 号 入 完全 之 前 将 所 有 剩 下 的 文件 包 放 入 
DataNode 管 道 ， 等 待 通知 确认 信息 。NameNode 会 知道 哪些 块 组 成 一 个 文件 〈 通 过 
DataStreamer 获 得 块 位 置信 息 ) ， 这 样 NameNode 只 要 在 返回 成 功 标志 前 等 待 块 被 最 小 量 


(dfs.replication.min) 复制 即 可 。 


9.6.3 “一致 性 模型 


文件 系统 的 一 致 性 模型 描述 了 文件 读 / 写 的 可 见 性 。HDFS 牺 牲 了 一 些 POSIX 的 需求 来 补 
偿 性 能 ， 所 以 有 些 操作 可 能 会 和 传统 的 文件 系统 不 同 。 





当 创 建 一 个 文件 时 ， 它 在 文件 系统 的 命名 空间 中 是 可 见 的 ， 代 码 如 下 : 


= 
Path p=new Path ("p") ; 
fs.create (p); 
assertThat (fs.exists (p) , is (true) ); 
[ee | 


但 是 对 这 个 文件 的 任何 写 操作 不 保证 是 可 见 的 ， 即 使 在 数据 流 已 经 刷新 的 情况 下 ， 文 件 
的 长 度 很 长 时 间 也 会 显示 为 0: 


| 
Path p=new Path ("p") ; 
OutputStream out=fs.create (p) ; 
out.write ("content".getBytes ("UTF-8") ); 
out.flush ( ; 
assertThat (fs.getFileStatus (p) .getLen (), is (0L) ); 


———~E&=—E<z&_—~—E>-<>~—i—C——~C~—~™~i~i~™~™~™——q}[U7>a_=>_—=_==vV_ 

一 旦 一 个 数据 块 写 入 成 功 ， 大 家 提出 新 的 请 求 就 可 以 看 到 这 个 块 ， 而 对 当前 写 入 的 块 ， 
大 家 是 看 不 见 的 。HDFS 提 供 了 所 有 缓存 和 DataNode 之 间 的 数据 强制 同步 的 方法 ， 这 个 方法 
是 FSDataOutputStream 中 的 sync O 函数 。 当 sync O 函数 返回 成 功 时 ，HDFS 就 可 以 保证 此 
时 写 入 的 文件 数据 是 一 致 的 并 且 对 于 所 有 新 的 用 户 都 是 可 见 的 。 即 使 HDFS 客 户 端 之 间 发 生 
冲突 ， 也 不 会 发 生 数据 丢失 ， 代 码 如 下 : 


| 
Path p=new Path ("p") ; 
FSDataOutputStream out=fs.create (p) ; 
out.write ("content".getBytes ("UTF-8") ); 
out.flush O ; 
out.sync O; 
assertThat (fs.getFileStatus (p) .getLen () ， 
is ( ( (long) "content".length O ) ) ) ; 


| 一 = | 
































这 个 操作 









































类 似 于 UNIX 系 统 中 的 fsync 系 统 调 用 ， 为 一 个 文件 描述 符 提交 缓存 数据 ， 利 


Java API 写 入 本 地 数据 ， 这 样 就 可 以 保证 看 到 刷新 流 并 且 同步 之 后 的 数据 ， 代 码 如 下 : 


人 
FileOutputStream out=new FileOutputStream (localFile) ; 
out.write ("content".getBytes ("UTF-8") ); 
out.flush () ; //flush to operating system 
out.getFD O .sync O ; //sync to disk 
assertThat (localFile.length © , 

is ( ( (long) "content".length O ))); 


Ea | 





在 HDFS 中 关闭 一 个 文件 也 隐 式 地 执行 了 sync〈) 函数 ， 代 码 如 下 : 


-ee 
Path p=new Path ("p") ; 
OutputStream out=fs.create (p) ; 
out.write ("content".getBytes ("UTF-8") ); 
out.close () ; 
assertThat (fs.getFileStatus (p) .getLen O , 
is ( ( (long) "content".length O ) ) ) ; 


二 一 





下 面 来 了 




















解 一 致 性 模型 对 应 用 设计 的 重要 性 。 文 件 系统 的 一 致 性 和 设计 应 用 程序 的 方法 




















有 关 。 如 果 不 





调用 sync O ， 那 么 需要 做 好 因 客 户 端 或 者 系统 发 生 故 障 而 丢失 部 分 数据 的 准 





备 。 对 大 多 数 























应 用 程序 来 说 ， 这 是 不 可 接受 的 ， 所 以 需要 在 合适 的 时 刻 调用 synce〈) ， 比 如 














在 写 入 一 定量 
仍然 有 不 可 忽 
平衡 点 就 是 ， 














的 数据 之 后 。 尽 管 sync〈) 被 设计 用 来 最 大 限度 地 减少 HDFS 的 负担 ， 但 是 它 
视 的 开销 ， 所 以 需要 在 数据 健壮 性 和 吞吐 量 之 间 做 好 权衡 。 其 中 一 个 好 的 参考 
通过 测试 应 用 程序 来 选择 不 同 sync〈) 频率 间 性 能 的 最 佳 平衡 点 。 





















































9.7 HDFS 命 令 详解 


Hadoop 提 供 了 一 组 shell 命 令 在 命令 行 终 
文件 系统 、 上 传 和 下 载 文件 、 启 动 DataNode、 
有 和 Hadoop 相 关 的 操作 。 











| 





Java API 等 多 种 接 








口 对 HDFS 访 问 模型 都 集 
操作 ， 就 需要 编写 一 个 程序 进行 并 行 操作 。HDFS 提 供 了 
在 Hadoop 文 件 系统 中 并 行 地 复制 大 数据 量 文件 。 
据 的 情况 。 如 果 两 个 集群 都 运行 在 同一 个 Hadoo 


科 端 对 Hadoop 进 行 操 作 














查看 文件 系统 使 








本 节 将 具体 介绍 HDFS 的 相关 命令 操作 。 


通过 distcp 进 行 并 行 复制 


中 于 单线 程 的 存 取 ， 如 


果 要 对 








上 














个 非 














REA 








fa distcp, 














distcp 一 般 适 





peat, BAT 








于 在 两 
以 使 























HDFS 模 式 : 





。 这 些 操作 包括 诸如 格式 化 
情况 、 运 行 JAR 包 等 几乎 所 


一 个 文件 集 进 行 


个 HDFS 集 群 间 传送 数 


=" | 


hadoop distcp hdfs: 


//NameNodel/foo hdfs: 


//NameNode2/bar 


TTT | 


这 条 命令 会 将 第 一 个 
即 在 第 二 个 集 








须 是 绝对 路 径 。 








集群 /foo 文 件 夹 以 及 文件 夹 下 的 文件 复制 到 第 二 个 集群 /bar 目 录 下 ， 
群 中 会 以 /bar/foo 的 目录 结构 出 现 。 如 果 /bar 目 录 不 存在 ， 则 系统 会 新 建 一 个 。 


也 可 以 指定 多 个 数据 源 ， 并 且 所 有 的 内 容 都 会 被 复制 到 目标 路 径 。 的 是 ， 源 路 径 必 


默认 情况 下 ， 虽 然 distcp 会 跳 过 在 目标 路 径 上 已 经 存在 的 文件 ， 但 是 通过 -overwirte 选 项 


可 以 选择 对 这 些 文件 进行 覆盖 重 写 ， 也 可 以 使 























-update 选 项 仅 对 更 新 过 的 文件 进行 


重 





J 


distcp 操 作 有 很 多 选项 可 以 设置 ， 比 如 忽略 失败 、 限 制 文件 或 者 复制 的 数据 量 等 。 直 接 输 


入 指令 或 者 不 附加 选项 可 


MapReduce 操 作 来 执行 ， 


行 。 
4 








因此 ， 每 个 文件 都 可 
捆绑 操作 ， 尽 可 能 地 保证 每 个 Map 操 作 执行 相同 数量 的 数据 。 那 么 执行 distcp 时 ，Map 操 作 








以 查看 此 操作 的 使 
当 没 有 Reducer 操 作 
以 被 当成 一 个 Map 操 作 来 执行 复制 。 














行 地 在 集群 节点 中 3 


说 明 。 具 体 实现 时 ，distcp 操 作 会 被 解析 为 一 个 
对 ， 复 制 被 作为 Map 操 作 并 





而 distcp 会 通过 执行 多 个 文件 





运 
EK 





如 何 确定 呢 ? 由 于 系统 需要 保证 每 个 Map 操 作 执 行 的 数据 量 是 合理 的 ， 来 最 大 化 地 减少 Map 
执行 的 开销 ， 而 按 规 定 ， 每 个 Map 最 少 要 执行 236MB 的 数据 量 〈 除 非 复制 的 全 部 数据 量 小 于 
256MB) 。 比 如 要 复制 1GB 的 数据 ， 那 么 系统 就 会 分 配 4 个 Map 任 务 ， 当 数据 量 非常 大 时 ， 就 
需要 限制 执行 的 Map 任 务 数 ， 以 限制 网 络 带 宽 和 集群 的 使 用 率 。 默 认 情 况 下 ， 每 个 集群 的 一 
个 节点 最 多 执行 20 个 Map 任 务 。 比 如 ， 要 复制 1000GB 数 据 到 100 节 点 的 集群 中 ， 那 么 系统 就 
会 分 配 2000 个 Map 任 务 〈 每 个 节点 20 个 ) ， 也 就 是 说 ， 每 个 节点 会 平均 复制 312MB。 还 可 以 
通过 调整 distcp 的 -m 参 数 减少 Map 任 务 量 ， 比 如 -m 1000 就 意味 着 分 配 1000 个 Maps， 每 个 节点 
分 配 1GB 数 据 量 。 



























































如 果 尝 试 使 用 distcp 进 行 HDFS 集 群 间 的 复制 ， 使 用 HDFS 模 式 之 后 ，HDFS 运 行 在 不 同 
Hadoop 版 本 之 上 ， 复 制 将 会 因为 RPC 系 统 的 不 匹配 而 失败 。 为 了 纠正 这 个 错误 ， 可 以 使 用 基 
于 HTTP 的 HFTP 进 行 访问 。 因 为 任务 要 在 目标 集群 中 执行 ， 所 以 HDFS 的 RPC 版 本 需要 匹 
配 ， 在 HFTP 模 式 下 运行 的 代码 如 下 : 





rey 






























































二 
hadoop distcp hftp: //NameNodel: 50070/foo 
hdfs: //NameNode2/bar 


-yyy y ly y KC 
需要 注意 的 是 ， 要 定义 访问 源 的 URI 中 NameNode 的 网 络 接口 ， 这 个 接口 会 通过 
dfs.http.address 的 属性 值 设 定 ， 默 认 值 为 30070。 





9.7.2 ”HDFS 的 平衡 











当 复 制 大 规模 数据 到 HDFS 时 ， 要 考虑 的 一 个 重要 因素 是 文件 系统 的 平衡 。 当 系统 中 的 
文件 块 能 够 很 好 地 均衡 分 布 到 集群 各 节点 时 ，HDFS 才 能 够 更 好 地 工作 ， 所 以 要 保证 distcp 操 
作 不 会 打破 这 个 平衡 。 回 到 前 面 复制 1000GB 数 据 的 例子 ， 当 设 定 -mm 为 1， 就 意味 着 1 个 Map 
操作 可 以 完成 1000GB 的 操作 。 这 样 不 仅 会 让 复制 操作 非常 慢 ， 而 且 不 能 充分 利用 集群 的 性 
能 。 最 重要 的 是 复制 文件 的 第 一 个 块 都 要 存储 在 执行 Map 任 务 的 那个 节点 上 ， 直 到 这 个 节点 
的 磁盘 被 写 满 ， 显 然 这 个 节点 是 不 平衡 的 。 通 常 我 们 通过 设置 更 多 的 、 超 过 集群 节点 的 Map 
任务 数 来 避免 不 平衡 情况 的 发 生 ， 所 以 最 好 的 选择 是 刚 开始 还 是 使 用 的 默认 属性 值 ， 每 个 节 
点 分 配 20 个 Map 任 务 。 










































































当然 ， 我 们 不 能 保证 集群 总 能 够 保持 平衡 ， 有 时 可 能 会 限制 Map 的 数量 以 便 节点 可 以 被 
此 他 任务 使 用 ， 这 样 HDFS 还 提供 了 一 个 工具 balancer (参见 第 10 章 ) 来 改变 集群 中 的 文件 块 
存储 的 平衡 。 
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9.7.3 ”使 用 Hadoop 归 档 文 伯 











在 9.2 节 中 介绍 过 ， 每 个 文件 HDFS 采 用 块 方式 进行 存储 ， 在 系统 运行 时 ， 文 件 块 的 元 数 
据 信息 会 被 存储 在 NameNode 的 内 存 中 ， 因 此 ， 对 HDFS 来 说 ， 大 规模 存储 小 文件 显然 是 低 效 
的 ， 很 多 小 文件 会 耗 尽 NameNode 的 大 部 分 内 存 。 
































Hadoop 归 档 文件 和 HAR 文 件 可 以 将 文件 高 效 地 放 入 HDFS 块 中 的 文件 存档 设备 ， 在 减少 
NameNode 内 存 使 用 的 同时 ， 仍 然 允许 对 文件 进行 透明 访问 。 有 具体 来 说 ，Hadoop 归 档 文件 可 
以 作为 MapReduce 的 输入 。 这 里 需要 注意 的 是 ， 小 文件 并 不 会 占用 太 多 的 磁盘 空间 ， 比 如 设 
定 一 个 128MB 的 文件 块 来 存储 1MB 的 文件 ， 实 际 上 存储 这 个 文件 只 需要 1MB 磁 盘 空间 ， 而 不 
是 128MB。 









































Hadoop 归 档 文件 是 通过 archive 命 令 工具 根据 文件 集合 创建 的 。 因 为 这 个 工具 需要 运行 一 
个 MapReduce 来 并 行 处 理 输入 文件 ， 所 以 需要 一 个 运行 MapReduce 的 集群 。 而 HDFS 中 有 些 
文件 是 需要 进行 归档 的 ， 例 如 ; 














和 

hadoop fs-lsr/user/ubuntu/In/ 

-rw-r--r--3 ubuntu\ubuntu supergroup 13 2012-03-18 20: 
15/user/ubuntu/In/hello.c.txt 

-rw-r--r--1 ubuntu\ubuntu supergroup 13 2012-03-17 15: 
13/user/ubuntu/In/hello.txt 


een 
运行 archive 命 令 如 下 : 


二 一 
hadoop archive-archiveName 
files.har/user/ubuntu/In//user/ubuntu/ 
12/03/18 20: 46: 47 INFO mapred.JobClient: Running job: 
job_201010182044 0001 
12/03/18 20: 46: 48 INFO mapred.JobClient: map O0%reduce 0% 
12/03/18 20: 47: 21 INFO mapred.JobClient: map 100%reduce 0% 
12/03/18 20: 47: 39 INFO mapred.JobClient: map 100%reduce 100% 
12/03/18 20: 47: 41 INFO mapred.JobClient: Job complete: 
job_201010182044 0001 
12/03/18 20: 47: 41 INFO mapred.JobClient: Counters: 17 


12/03/18 20: 
12/03/18 20: 


tasks=1 


12/03/18 20: 


tasks=1 


12/03/18 20: 
12/03/18 20: 
12/03/18 20: 
12/03/18 20: 
FILE BYTES WRITTEN=870 
12/03/18 20: 
HDFS_BYTES_ WRITTEN=305 
12/03/18 20: 


Framework 


12/03/18 20: 


groups=6 


12/03/18 20: 


records=0 


12/03/18 20: 
12/03/18 20: 


bytes=0 


12/03/18 20: 


records=0 


12/03/18 20: 
12/03/18 20: 


bytes=280 


12/03/18 20: 
12/03/18 20: 


records=0 


12/03/18 20: 


records=6 


12/03/18 20: 


records=6 


47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 
47: 41 


mapred. 
mapred. 


mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 


mapred. 


mapred. 
mapred. 


mapred. 


mapred. 
mapred. 


mapred. 
mapred. 


mapred. 


mapred. 


JobClient: 
JobClient: 


JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 


JobClient: 


JobClient: 
JobClient: 


JobClient: 


JobClient: 
JobClient: 


JobClient: 
JobClient: 


JobClient: 


JobClient: 


Job Counters 
Launched reduce 


Launched map 
FileSystemCounters 


FILE BYTES READ=540 
HDFS_BYTES_ READ=531 


Map-Reduce 
Reduce input 
Combine output 


Map input records=6 
Reduce shuffle 


Reduce output 


Spilled Records=12 
Map output 


Map input bytes=399 
Combine input 


Map output 


Reduce input 


| | 


在 命令 行 中 ， 第 一 个 参数 是 归档 文件 的 名 称 ， 这 里 是 file.har 文 件 ， 第 二 个 参数 是 要 归档 
归档 一 个 源 文件 来 ， 即 HDFS 下 /user/ubuntwIn/ 中 的 文件 ， 但 事实 上 ， 





的 文件 源 ， 这 里 我 们 只 


archive 命 令 可 以 接收 多 个 文件 源 ， 最 后 一 个 参数 ， 即 本 例 





出 目录 。 可 以 看 到 这 个 命令 的 执行 流程 为 一 个 MapRedeuce 任 务 。 


下 面 我 们 来 看 这 个 归档 文件 是 怎么 


创建 的 ; 








中 的 /user/ubuntu/ 是 HAR 文 件 的 输 


ee | 
hadoop fs-ls/user/ubuntu/In//user/ubuntu/ 


Found 2 items 

-rw-r--r--3 ubuntu\ubuntu supergroup 13 2012-03-18 20: 
15/user/ubuntu/In/hello.c.txt 

-rw-r--r--1 ubuntu\ubuntu supergroup 13 2012-03-17 15 
13/user/ubuntu/In/hello.txt 

Found 3 items 

drwxr-xr-x-ubuntu\ubuntu supergroup 0 2012-03-18 20 
15/user/ubuntu/In 

drwxr-xr-x-ubuntu\ubuntu supergroup 0 2012-03-18 18 
53/user/ubuntu/ubuntu 

drwxr-xr-x-ubuntu\ubuntu supergroup 0 2012-03-18 20 
47/user/ubuntu/files.har 


5 


att 


这 个 目录 列表 展示 了 一 个 HAR 文 件 的 组 成 : 两 个 索引 文件 和 部 分 文件 Cpart file) KA 
合 。 这 里 的 部 分 文件 包含 已 经 连接 在 一 起 的 大 量 源 文件 的 内 容 ， 同 时 索引 文件 可 以 检索 部 分 
文件 中 的 归档 文件 ， 包 括 它 的 长 度 、 起 始 位 置 等 。 但 是 ， 这 些 细节 在 使 用 HAR URI 模 式 访问 
HAR 文 件 时 多 数 都 是 隐藏 的 。HAR 文 件 系统 是 建立 在 底层 文件 系统 上 的 此 处 是 HDFS)， 
以 下 命令 以 递归 的 方式 列 出 了 归档 文件 中 的 文件 : 


和 
hadoop fs-lsr har: ///user/ubuntu/files.har 
drw-r--r---ubuntu\ubuntu supergroup 0 2012-03-18 20 
47/user/ubuntu/files.har/user 
drw-r--r---ubuntu\ubuntu supergroup 0 2012-03-18 20 
47/user/ubuntu/files.har/ 

user/ubuntu 

drw-r--r---ubuntu\ubuntu supergroup 0 2012-03-18 20 
47/user/ubuntu/files.har/ 

user/ubuntu/In 

-rw-r--r--10 ubuntu\ubuntu supergroup 13 2012-03-18 20 
47/user/ubuntu/files. 

har/user/ubuntu/In/hello.c.txt 

-rw-r--r--10 ubuntu\ubuntu supergroup 13 2012-03-18 20 
47/user/ubuntu/files. 

har/user/ubuntu/In/hello.txt 


| | 









































如 果 HAR 文 件 所 在 的 文件 系统 是 默认 的 文件 系统 ， 那 么 这 里 的 内 容 就 非常 直观 和 易 懂 ， 
但 是 ， 如 果 你 想 要 在 其 他 文件 系统 中 使 用 HAR 文 件 ， 就 需要 使 用 不 同 格式 的 URI 路 径 。 下 面 
两 个 命令 即 具 有 相同 的 作 


aA 






































到 









































hadoop fs-lsr har: ///user/ubuntu/files.har/my/files/dir 

hadoop fs-lsr har: //hdfs-localhost: 
8020/user/ubuntu/files.har/my/files/dir 
ee = 

















第 二 个 命令 ， 它 仍然 使 用 HAR 模 式 描述 一 个 HAR 文 件 系统 ， 但 是 使 用 HDFS 作 为 底层 的 
文件 系统 模式 ，HAR 模 式 之 后 紧 跟 一 个 HDFS 系 统 的 主机 和 端口 号 。HAR 文 件 系统 会 将 HAR 
URI 转 换 为 底层 的 文件 系统 访问 URI。 在 本 例 中 即 为 hdfs: //localhost: 


























8020/user/ubuntuarchiveyfiles.har， 文 件 的 剩余 部 分 路 径 即 为 文件 归档 部 分 的 路 
径 /my /files/dir。 























想 要 删除 HAR 文 件 ， 需 要 使 用 删除 的 递归 格式 ， 这 是 因为 底层 的 文件 系统 HAR 文 件 是 一 
个 目录 ， 删 除 命令 为 hadoop fs-rmr/user/ubuntu/files.har。 











对 于 HAR 文 件 我 们 还 需要 了 解 它 的 一 些 不 足 。 当 创建 一 个 归档 文件 时 ， 还 会 创建 原始 文 
件 的 一 个 副本 ， 这 样 就 需要 额外 的 磁盘 空间 (尽管 归档 完成 后 会 删除 原 始 文 件 ) 。 而 且 当 前 
还 没有 针对 归档 文件 的 压缩 方法 ， 只 能 对 写 入 归档 文件 的 原始 文件 进行 压缩 。 归 档 文件 一 旦 
创建 就 不 能 改变 ， 要 增加 或 者 删除 文件 ， 就 要 重新 创建 。 事 实 上 ， 这 对 于 那些 写 后 不 能 更 改 
的 文件 不 构成 问题 ， 因 为 可 以 按 日 或 者 按 周 进行 定期 成 批 归档 。 












































如 前 所 述 ，HAR 文 件 可 以 作为 MapReduce 的 一 个 输入 文件 ， 然 而 ， 没 有 一 个 基于 归档 的 
InputFormat 可 以 将 多 个 文件 打包 到 一 个 单一 的 MapReduce 中 去 。 所 以 ， 即 使 是 AR 文件 ， 处 
理 小 的 文件 时 效率 仍然 不 高 。 





9.7.4 其 他 命令 
其 他 相关 命令 还 包括 以 下 这 些 : 
NameNode-format: 格式 化 DFS 文 件 系统 
secondaryNameNode: 运行 DFS 的 SecondaryNameNode 进 程 
NameNode: 运行 DFS 的 NameNode 进 程 
DataNode: 运行 DFS 的 DataNode 进 程 
dfsadmin: 运行 DFS 的 管理 客户 端 
mradmin: 运行 MapReduce 的 管理 客户 端 


fsck: 运行 HDFS 的 检测 进程 





fs: 运行 一 个 文件 系统 工具 


balancer: 运行 一 个 文件 系统 平衡 进程 





jobtracker: 运行 一 个 JobTracker 进 程 
pipes: 运行 一 个 Pipes 任 务 


tasktracker: 运行 一 个 TaskTracker 进 程 





job: 管理 运行 中 的 MapReduce 任 务 





queue: 获得 运行 中 的 MapReduce 队 列 的 信息 


version: 打印 版 本 号 


jar<jar>: 运行 一 个 JAR 文 件 


daemonlog: 读 取 /设置 守护 进程 的 日 志 记录 级 别 








相信 大 家 已 经 对 这 些 命令 中 的 一 部 分 很 熟悉 了 ， 比 如 在 命令 行 终端 中 ，jar 是 用 来 运行 
Java 程 序 的 ，version 命 令 可 以 查看 Hadoop 的 当前 版 本 ， 或 者 在 安装 时 必须 运行 的 NameNode- 
format 命 令 。 在 这 一 小 节 ， 我 们 介绍 的 是 与 HDFS 有 关 的 命令 。 其 中 与 HDFS 相 关 的 命令 有 如 


下 几 个 : secondaryNameNode、NameNode、DataNode、dfsadmin、fsck、fs、balancer、 





























distcp 和 archieves。 


它们 的 统一 格式 如 下 : 


= = = 
bin/hadoop command[genericOptions] [commandOptions] 














其 中 只 有 dfsadmin、fsck、fs 具 有 选项 genericOptions 及 commandOptions， 其 余 的 命令 只 
有 commandOptions。 下 面 先 介绍 只 有 commandOptions 选 项 的 命令 。 






































disttp。Distcp 命 令 用 于 DistCp〈 即 Dist 分 布 式 ，Cp 复 制 ) 分 布 式 复制 。 用 于 在 集群 内 部 
及 集群 之 间 复 制 数据 。 

















archives。archives 命 令 是 Hadoop 定 义 的 档案 格式 。archive 对 应 一 个 文件 系统 ， 它 的 扩展 
名 是 .har， 包 含 元 数据 及 数据 文件 。 





这 两 个 命令 在 前 文中 已 有 介绍 ， 这 里 就 不 再 袭 述 了 。 




















DataNode。DataNode 命 令 要 简单 一 些 。 你 可 以 使 用 如 下 命令 将 Hadoop 回 滚 到 前 一 个 版 
本 ， 它 的 用 法 如 下 : 




















| 
hadoop DataNode[-rollback] 
| 











NameNode。nameNode 命 令 稍稍 复杂 一 些 ， 它 的 用 法 如 下 : 











二 一 


hadoop nameNode 




















[ 
[ 
[= 
[-finalize]// 删 除 
[= 


-format]/ /格式 化 NameNode 
-upgrade]// 在 Hadoop 升 级 后 ， 应 该 使 用 这 个 命令 启动 NameNode 
rollback]// 使 用 NameNode 回 深 前 一 个 版 本 




















文件 系统 的 前 一 个 状态 ， 这 会 导致 系统 不 能 回 深 到 前 一 个 状态 


importCheckpoint]// 复 制备 份 checkpoint 的 状态 到 当前 checkpoint 


和 


Secondary NameNode. 














secondary NameNode 的 命令 用 法 如 下 : 





| 


hadoop secondaryNameNode 
{-checkpoint [force] ] 





// 当 edit1og 超 过 规定 大 小 (默认 64MB) 时 ， 启 动 检查 secondaryNameNode 的 


checkpoint 过 程 ， 如 果 启 
[-geteditsize] 


// 在 终端 上 显示 edit1og 文 件 的 大 小 














force 选 项 ， 则 强制 执行 checkpoint 过 程 





——CetTFTFOFOTO ——T+rTr—oOonMmoOnmDDOTC ee ee eee 


balancer. balancer fit 














[>H 














如 解释 中 所 说 ， 用 于 分 担负 载 。 很 多 原 








都 会 造成 数据 在 集群 内 























分 布 不 均衡 ， 一 般 来 说 ， 当 集群 中 添加 新 的 DataNode 时 ， 可 以 使 用 这 个 命令 来 进行 负载 均 




















衡 。 其 用 法 如 下 : 














| | 


hadoop balancer 


ee > 


接 下 来 的 dfsadmin、fsck、fs 这 三 个 命令 有 一 个 共同 的 选项 genericOptions， 这 个 选项 一 














般 与 系统 相关 ， 其 用 法 如 下 : 














一 


-conf<configurat 


ion file>// 指 定 配置 文件 


-D<property=value>// 指 定 某 属性 的 属性 值 


-fs<local|namenode: port>// 指 定 DpataNode 及 其 端口 





5 


dfsadmin。 在 dfsadmi 命 

















令 中 可 以 执行 一 些 类 似 Windows 中 高 级 用 户 才能 执行 的 命令 ， 比 


























如 升级 、 回 滚 等 。 其 用 法 如 














| 
hadoop dfsadmin[GENERIC OPTIONS] 


[-report]// 在 终端 l 





上 显示 文件 系统 的 基本 信息 


全 模 


新 的 
接 


细节 


已 经 


如 下 : 


-safemode enter|leave|lget|wait]//Hadoop 的 安全 模式 及 相关 维护 ;在 安 
式 中 系统 是 只 读 的 ， 数 据 块 也 不 可 以 删除 或 复制 

-refreshNodes][-finalizeUpgrade]// 重 新 读 取 hosts 和 exclude 文 件 ， 将 
被 允许 加 入 到 集群 中 的 DataNode 连 入 ， 同 时 断 开 与 那些 从 集群 出 去 的 DataNode 的 连 











-upgradeProgress status|details|force]// 获 得 当前 系统 的 升级 状态 、 
， 或 者 强制 执行 升级 过 程 
-metasave filename]// 保 存 NameNode 的 主要 数据 结构 到 指定 目录 下 
-setQuota<quota><dirname>....<dirname>>]// 为 每 个 目录 设 定 配 额 
-clrQuota<dirname>.....<dirname>]//jaix#s ARMA 
-setSpaceQuota<quota><dirname>.....<dirname>]//Afi+ ARKEM 
间 
-clrSpaceQuota<dirname>>....<dirname>]// 清 除 这 些 目 录 的 配额 空间 
-help [cmd] ] // 显 示 命令 的 帮助 信息 
































fsck。fsck 在 HDFS 中 被 用 来 检查 系统 中 的 不 一 致 情况 。 比 如 某 文件 只 有 目录 ， 但 数据 块 
丢失 或 副本 数目 不 足 。 与 Linux 不 同 ， 这 个 命令 只 用 于 检测 ， 不 能 进行 修复 。 其 使 用 方法 















































hadoop fsck[GENERIC_OPTIONS] <path> [-move|-delete|- 


openforwrite] [-files 


[-blocks [-locations|-racks]]] 
//<path> 检 查 的 起 始 目 录 
//-move 移 动 受 损 文件 到 /1ost+found 
//-delete 删 除 受 损 文件 
//-openforwrite 在 终端 上 显示 被 写 打开 的 文件 
//- a ee e Hei 
//-blocks 在 终端 上 显示 块 信息 
//-1location 在 终端 上 显示 每 个 块 的 位 置 
//-rack 显 示 DataNode 的 网 络 拓扑 结构 图 


一 | 





























fs: fs 可 以 说 是 HDFS 最 常用 的 命令 ， 这 是 一 个 高 度 类 似 Linux 文 件 系 统 的 命令 集 。 你 可 以 
这 些 命 令 查 看 HDFS 上 的 目录 结构 文件 、 上 传 和 下 载 文 件 、 创 建文 件 夹 、 复 制 文件 等 。 


























此 使 











方法 如 下 : 





| | 


目标 


hadoop fs [genericOptions] 

-1s<path>]// 显 示 目 标 路 径 当前 目录 下 的 所 有 文件 

-1sr<path>]// 递 归 显示 目标 路 径 下 的 所 有 目录 及 文件 《深度 优先 ) 
pea / /以 字 节 为 单位 显示 目录 中 所 有 文件 的 大 小 ， 或 该 文件 的 大 小 (如果 
为 文件 ) 











屏幕 
文件 
件 ， 


从 本 


统 。 
文件 


写 入 
中 的 




















-dus<path>]// 以 字 节 为 单位 显示 目标 文件 大 小 《用 于 查看 文件 夹 大 小 ) 

-count [-q]<path>] // 将 目录 的 大 小 、 包 含 文件 〈 包 括 文件 ) 个 数 的 信息 输出 到 
(标准 stdout) 

-mv<src><dst>]// 把 文件 或 目录 移动 到 目标 路 径 ， 这 个 命令 允许 同时 移动 多 个 
， 但 是 只 允许 移动 到 一 个 目标 路 径 中 ， 参 数 中 的 最 后 -个 文件 夹 即 为 目标 路 径 
-cpsrc 之 <dst>] // 复 制 文件 或 目录 到 目标 路 径 ， 这 个 命令 允许 同时 复制 多 个 文 
如 果 复 制 多 个 文件 ， 目 标 路 径 必须 是 文件 夹 
-rm[-skipTrash]<path>]/ /删除 文件 ， 这 个 命令 不 能 删除 文件 夹 
-rmr[-skipTrash] 二 path>]// 删 除 文件 夹 及 其 下 的 所 有 文件 
-expunge] 
-put<localsrc>.…<dst>]// 从 本 地 文件 系统 上 传 文件 到 HDFS 中 
-copyFromLocal<localsrc>.…<dst>]// 与 put 相 
-moveFromLocal<localsrc>.…<dst>]// 与 put 相 同 ， 但 是 文件 上 传 之 后 会 
也 文件 系统 中 移 除 
-get [-ignoreCre] [-cre] <srce><localdst >] // iil] CF BIA CER 
这 个 命令 可 以 选择 是 否 忽 视 校 验 和 ， 和 忽视 校 验 和 下 载 主 要 用 于 挽救 那些 已 经 发 生 错 误 的 























可 












































-getmerge<src>><localdst>>[adqdn1]]// 将 源 目录 中 的 所 有 文件 进行 排序 并 
目标 文件 中 ， 文 件 之 间 以 换行 符 分 隔 
-cat<src>]// 在 终端 显示 《标准 输出 stdout ) 文件 中 的 内 容 ， 类 似 Linux 系 统 
cat 

-text<src>] 

-copyToLocal[-ignoreCrc] [-crc] <src><localdst>>]// 与 get 相 同 
-moveToLocal[-crc] <src><localdst>] 

-mkdir<path 之 ] // 创 建文 件 严 

-setrep[-R] [-w]<rep>><path/file>]// 改 变 一 个 文件 的 副本 个 数 。 参 数 - 











R 可 以 递归 地 对 该 目录 下 的 所 有 文件 做 统一 操作 


可 以 





-touchz<path>]// 类 似 Linux 中 的 touch， 创 建 一 个 空 文件 
-test-[ezd]<path>]7// 将 源 文件 输出 为 文本 格式 显示 到 终端 上 ， 通 过 这 个 命令 
查看 TextRecordInputStream (SequenceFile 等 ) 或 zip 文 件 

-stat [format] <path>>]// 以 指定 格式 返回 路 径 的 信息 
-tail[-f]<<file>>]// 在 终端 上 显示 《〈 标 注 输出 stdout ) 文件 的 最 后 1kb 内 
-选项 的 行为 与 

Linux 中 一 致 ， 会 持续 检测 新 添加 到 文件 中 的 内 容 ， 这 在 查看 日 志文 件 时 会 显得 非常 方 








-chmod [-R] <MODE[, MODE)...... | OCTALMODE>PATE......] /V/ 改 变 文件 的 权限 ， 只 








便 

有 文 

权限 

地 改 

所 有 文件 所 属 的 组 。 这 个 命令 必须 是 超级 at 


件 的 所 有 者 或 是 超级 用 户 才能 使 用 这 个 命令 。-R 可 以 递归 地 改变 文件 夹 内 的 所 有 文件 的 











-chown[-R] [OWNER] [: [GROUP] ] PATH..….] / /改变 文件 的 拥有 者 ，-R 可 以 递归 
变 文件 夹 内 所 有 文件 的 拥有 者 。 同 样 ， 这 个 命令 只 有 超级 用 户 才能 使 
-chgrp[-R]GROUP PATH... Be ce Sip lea -R 可 以 递归 地 改变 文件 夹 内 







































































-help [cmd] ] // 这 是 命令 的 帮助 信息 


一 





在 这 些 命令 中 ， 参 数 二 pa 了 h 二 的 完整 格式 是 hdfs: /NameNodeIP: porty， 比 如 你 的 


NameNode 地 址 是 192.168.0.1， 端 口 是 9000， 那 么 ， 如 果 想 访问 HDFS 上 路 径 为 /user/root/hello 
的 文件 ， 则 需要 输入 的 地 址 是 hdfs: /192.168.0.1: 9000/user/root/hello。 在 Hadoop 中 ， 如 果 参 
数 二 path 二 没有 NameNodeIP， 那 么 会 默认 按照 core-site.xm1l 中 属 1 








生 fs.defaultname 的 设置 ， 


附加 “user/ 你 的 用 户 名 ”作为 路 径 ， 这 是 为 了 方便 使 用 以 及 对 不 同 用 户 进行 区 分 。 


















































9.8 WebHDFS 














本 章 前 面 的 部 分 讲解 了 HDFS 相 关 的 内 容 ， 重 点 集中 在 如 何 使 用 shell 下 Hadoop 的 命令 和 
HDFS 的 Java API 来 管理 HDFS。 这 一 小 节 将 讲解 Hadoop 1.0 版 本 中 新 增加 的 WebHDFS， 即 通 





bl 




















过 Web 命 令 来 管理 HDFS。 


9.8.1 WebHDFS 的 配置 











WebHDFS 的 原理 是 使 用 curl 命 令 向 指定 的 Hadoop 集 群 对 外 接口 发 送 页 面 请 求 ，Hadoop 
集群 的 网 络 接口 接收 到 请 求 之 后 ， 会 将 命令 中 的 URL 解 析 成 HDFS 上 的 对 应 文件 或 者 文件 
夹 ，URL 后 面 的 参数 解析 成 命令 、 用 户 、 权 限 、 缓 存 大 小 等 参数 。 待 完成 相应 的 操作 之 后 ， 
将 结果 发 还 给 执行 curl 命 令 的 客户 端 ， 并 显示 执行 信息 或 者 错误 信息 。 那 么 要 使 
WebHDFS， 首 先 就 必须 在 期 望 使 用 WebHDFS 的 客户 端 安装 curl 软 件 包 。 在 Ubuntu 下 执行 简单 
的 apt-get install curl 命 令 ，apt 包 管理 器 就 会 自动 从 系统 指定 的 源 地 址 下 载 curl 并 安装 。 待 安装 
结束 之 后 ， 在 终端 输入 curl-V 可 以 查看 是 否 安装 成 功 。 




































































在 客户 端 安装 好 curl 软 件 包 之 后 ， 还 需要 修改 Hadoop 集 群 的 配置 ， 使 其 开放 WebHDFS 服 
务 。 具 体操 作 是 : 停止 Hadoop 所 有 服务 之 后 ， 配 置 hdfs-site.xml 中 的 dfs.webhdfs.enabled, 





dfs.web.authentication.kerberos.principal, dfs.web.authentication.kerberos.keytab 这 三 个 属性 为 适 
当 的 值 ， 其 中 第 一 个 属性 值 应 配置 为 tue， 代 表 启 动 webHDFS 服 务 ， 后 面 两 个 代表 使 
webHDFS 时 采用 的 用 户 认证 方法 ， 这 里 为 了 简单 起 见 并 没有 设置 ， 后 面 的 命令 也 都 采 
Hadoop 的 启动 用 户 Ubuntu 来 发 送 命令 。 配 置 结束 之 后 再 启动 Hadoop 所 有 的 服务 ， 这 样 就 可 
以 使 用 WebHDFS 来 管理 Hadoop 集 群 了 。 





































































































9.8.2 ”WebHDFS 命 令 


上 一 小 节 讲 了 如 何 配置 WebHDFS， 这 一 小 节 我 们 将 详细 介绍 WebHDFS 命 令 的 组 织 方式 
和 具体 的 命令 。 


1.WebHDFS 命 令 一 般 形 式 














在 这 一 部 分 的 开始 就 讲 了 WebHDFS 实 际 上 是 用 curl 命 令 来 发 送 管 理 的 命令 ， 所 以 
WebHDFS 的 命令 组 织 和 curl 命 令 组 织 类 似 。 一 般 为 下 面 的 格式 : 








= == 
curl [-i/-X/-u/-T] [PUT] "http: //<HOST>: <PORT>/webhdfs/v1/< 
PATH>? [user.name=<user>&] &op=<operation>& [doas=<user>]....." 


_——————————————— — —————— | 





在 这 个 命令 里 面 ， 引 号 前 面 的 部 分 是 curl 自 己 的 参数 ， 需 要 大 家 自行 了 解 ; 后面 网 页 形 
式 的 内 容 代表 着 操作 的 指令 、 参 数 和 路 径 。 其 中 http: /<HOST>: 二 PORT> 。 代 表 需 要 将 
命令 发 送 的 地 址 和 端口 ， 也 就 是 Hadoop 集 群 服务 器 的 IP 地 址 和 HDFS 端 口 〈 默 认 是 50070) 。 
在 这 个 地 址 之 后 的 部 分 /webhdfswv1/<PATH> 代 表 着 需要 操作 的 远程 HDFS 集 群 上 的 路 径 ， 昌 
如 /webhdfs/vl/user/ubuntu/input， 就 代表 着 HDFS 上 /user/ubuntu/input 这 个 目录 。 引 号 中 再 往 后 
的 内 容 就 是 操作 的 指令 和 参数 了 ， 其 中 最 重要 的 是 op 参数 ， 代 表 着 具体 的 操作 指令 ， 接 下 来 
的 内 容 我 们 会 详细 讲解 。 






































2. 文 件 和 路 径 操作 


创建 文件 并 写 入 内 容 : 


一 
curdl-i-xX PUT"h t t p: //<HOS T> <PORT>/webhd 
f s/v 1/<P A T H>?o p=C RE A T E overwrite=<true|false>][& 
blocksize=<LONG>] [&replication=<SHORT>] 
[&permission=<OCTAL>] [&buffersize=<INT>]" 


JE 














使 用 上 述 命令 之 后 ， 会 返回 一 个 location， 它 包括 了 已 创建 文件 所 在 的 DataNode 地 址 及 














创建 路 径 。 下 面 就 可 以 将 文件 内 容 发 送 到 所 显示 DataNode 对 应 路 径 下 的 文件 内 ， 命 令 如 下 : 


| 
curl-i-X PUT-T<LOCAL_FILE>"http: //<DAtANODE>: <PORT 
>/webhdfs/v1/<PATH>?op=CREATE......" 


Of FOOl“le | 


文件 追加 内 容 ， 首 先 使 用 下 面 的 命令 获取 待 追加 内 容 文 件 所 在 的 地 址 ; 


| | 
cur1-i-X POST"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=APPEND[&buffersize=<INT>]" 


i 




















再 结合 返回 内 容 的 location 信 息 ， 追 加 内 容 ， 命 令 如 下 : 


ee | 
curl-i-X POST-T<LOCAL FILE>"http: //<DAtANODE>: <PORT 
>/webhdfs/v1/<PATH>?o0p=APPEND......" 


人 














打开 并 读 取 文 件 内 容 ， 使 用 下 面 的 命令 打开 远程 HDFS 上 的 文件 并 读 取 内 容 : 











一 
curl-i-L"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>?o0p=OPEN 
[&offset=<LONG>] [&length=<LONG>] [&buffersize=<INT>]" 


一 





需要 注意 的 是 ， 这 个 命令 首先 会 返回 文件 所 在 的 location 信 息 ， 然 后 打印 文件 的 具体 内 


创建 文件 夹 : 


和 
curl-i-X PUT"http: //<HOST>: <PORT>/<PATH>?0p=MKDIRS[& 
permission=<OCTAL>]" 


一 








闻名 文件 夹 或 文件 : 


OCC 
curl-i-X PUT"<HOST>: <PORT>/webhdfs/v1/<PATH>?o0p=RENAME & 
destination=<PATH>" 


E | 


删除 文件 夹 或 者 文件 : 


= = 
curl-i-X DELETE"http: //<host>: <port>/webhdfs/v1/<path>? 
Op=DELETE 
[&recursive=<true|false>]" 


一 
查看 文件 夹 或 文件 信息 : 


| | 
curl-i"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=GETFILESTATUS" 


一 
列举 文件 夹 内 容 : 
| | 


curl-i"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=LISTSTATUS" 


ee | 


3. 其 他 文件 系统 操作 





获取 文件 夹 统计 信息 : 


1 
curl-i"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=GETCONTENTSUMMARY" 


一 





这 个 命令 主要 返回 一 下 文件 夹 信息 : 文件 夹 个 数 、 文 件 个 数 、 总 字 长 和 总 大 小 等 。 


获取 文件 校 验 和 : 
EE 


curl-i"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=GETFILECHECKSUM" 


主要 返回 校 验算 法 、 校 验 字 符 串 和 字符 串 长 度 。 





























获取 当前 web 用 户 的 主 目录 : 








| a | 
curl-i"http: //<HOST>: <PORT>/webhdfs/v1/? 
op=GETHOMEDIRECTORY" 


5 


设置 权限 : 


me | 
cur1-i-X PUT"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=SETPERMISSION 
[&permission=<OCTAL>]" 


和 
设置 文件 夹 或 文件 属 主 属性 : 


1 
curl-i-X PUT"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=SETOWNER 
[| &owner=<USER>] [&group=<GROUP>]" 


一 


设置 备份 数量 : 


[es | 
curl-i-X PUT"http: //<HOST>: <PORT>/webhdfs/v1/<PATH>? 
op=SETREPLICATION 
[&replication=<SHORT>]" 


i 


4. 常 见 错误 














在 使 用 WebHDFS 时 经 常会 抛 出 一 些 异常 ， 但 是 从 异常 的 信息 大 体 都 能 分 析出 问题 所 在 ， 
下 面 介 绍 几 种 常见 的 异常 和 分 析 。 











(1) Illegal Argument Exception 


这 种 异常 出 现 的 返回 信息 如 下 : 


[| 
HTTP/1.1 400 Bad Request 
Content-Type: application/json 
Transfer-Encoding: chunked 
{ 


"RemoteException": 

{ 

"exception": "IllegalArgumentException", 

"jJavaClassName": "jJava.lang.IllegalArgumentException", 

"message": "Invalid value for webhdfs 
parameter\"permission\": me." 

} 

} 


ee | 

















从 异常 信息 可 以 很 明显 看 出 是 命令 的 参数 不 对 ， 这 就 需要 用 户 仔细 检查 自己 的 参数 是 否 
有 输入 错误 或 拼写 错误 。 








(2) Security Exception 


这 种 异常 出 现 的 返回 信息 如 下 


[| 
HTTP/1.1 401 Unauthorized 
Content-Type: application/json 
Transfer-Encoding: chunked 
{ 


"RemoteException": 

{ 

"exception": "SecurityException", 
"jJavaClassName": "java.lang.SecurityException", 


"message": "Failed to obtain user group information: ......" 
} 
} 











出 现 这 种 异常 的 原 




















Es 
并 
aa 
re 

=> 
> 
3 


户 应 通过 认证 ， 这 就 需要 用 户 先 提交 认证 信息 。 








(3) File Not Found Exception 








这 种 异常 出 现 的 返 


回 


信息 如 下 : 





aa 
HTTP/1.1 404 Not Found 
Content-Type: application/json 
Transfer-Encoding: chunked 
{ 


"RemoteException": 


{ 

"exception": "FileNotFoundException", 
"jJavaClassName": "java.io.FileNotFoundException", 
"message": "File does not exist: /foo/a.patch" 

} 

} 


一 








出 现 这 种 异常 的 原因 是 找 不 到 指定 的 目录 或 者 文件 ， 这 需要 用 户 确认 自己 命令 中 的 路 径 
和 文件 。 























9.9 本 章 小 结 








在 本 章 中 ， 深 入 介绍 了 Hadoop 中 一 个 关键 的 分 布 式 文件 系统 HDFS。HDFS 是 Hadoop 的 
一 个 核心 子 项 目 ， 是 Hadoop 进 行 大 数据 存储 管理 的 基础 ， 它 支持 MapReduce 分 布 式 计算 。 


首先 ， 对 Hadoop 的 文件 系统 进行 了 总 体 的 概括 ， 随 后 针对 HDFS 进 行 了 简单 介绍 ， 分 析 
了 它 的 研究 背景 和 设计 基础 。 有 了 这 样 的 背景 知识 ， 就 可 以 在 随后 的 章节 中 更 好 地 理解 
HDFS 的 功能 和 实现 。 本 章 还 从 结构 上 对 HDFS 进 行 了 描述 ， 给 出 了 HDFS 的 相关 概念 ， 包 括 





块 、NameNode、DataNode 等 。 通 过 对 HDFS 概 念 的 学 习 ， 还 可 以 了 解 HDFS 的 体系 结构 。 








其 次 ， 在 掌握 基本 概念 的 基础 上 ， 我 们 介绍 了 HDFS 的 基本 操作 接口 。HDFS 为 开发 者 提 
供 了 丰富 的 接口 ， 包 括 命令 行 接口 和 各 种 方便 使 用 的 Java 接 口 ， 可 以 通过 Java API 对 HDFS 中 
的 文件 执行 常规 的 文件 操作 。 不 仅 如 此 ， 在 使 用 API 对 HDFS 文 件 系统 进行 管理 的 基础 上 ， 还 
对 HDFS 中 文件 流 的 读 / 写 进行 了 详细 介绍 。 这 对 更 深入 地 了 解 HDFS 有 很 大 帮助 。 















































最 后 ， 本 章 对 HDFS 的 命令 进行 了 详细 讲解 ， 并 对 其 中 特有 的 distcp 操 作 和 归档 文件 进行 
了 具体 说 明 ， 理 解 了 它们 可 以 更 好 地 帮助 大 家 了 解 Hadoop 的 文件 系统 。 











第 10 章 ”Hadoop 的 管理 





本 章 内 容 


Eà 


HDFS 文 件 结构 


Hadoop 的 状态 监视 和 管理 工具 





Hadoop 集 群 的 维护 





在 第 2 章 我 们 已 经 详细 介绍 了 如 何 安装 和 部 署 Hadoop 集 群 ， 本 章 我 们 将 具体 介绍 如 何 维 
护 集群 以 保证 其 正常 运行 。 毋 庸 置疑， 维护 一 个 大 型 集群 稳定 运行 是 必要 的 ， 手 段 也 是 多 样 
的 。 为 了 更 清晰 地 了 解 Hadoop 集 群 管理 的 相关 内 容 ， 本 章 主要 从 HDFS 本 身 的 文件 结构 ， 
Hadoop 的 监控 管理 工具 以 及 集群 常用 的 维护 功能 三 方面 进行 讲解 。 


















































10.1 HDFS 文 件 结构 





作为 一 名 合格 的 系统 运 维 人 员 ， 首 先 要 全 面 掌 握 系统 的 文件 组 织 目 录 。 对 于 Hadoop 系 统 
的 运 维 人 员 来 说 ， 就 是 要 掌握 HDFS 中 的 NameNode、DataNode、Secondery NameNode 是 如 
何在 磁盘 上 组 织 和 存储 持久 化 数据 的 。 只 有 这 样 ， 当 遇 到 问题 时 ， 管 理 人 员 才能 借助 系统 本 
身 的 文件 存储 机 制 来 快速 诊断 和 分 析 问 题 。 下 面 从 HDFS 的 几 个 方面 来 分 别 介绍 。 














1.NameNode 的 文件 结构 





最 新 格式 化 的 NameNode 会 创建 以 下 目录 结构 : 


| 
${dfs.name.dir}/current/VERSION 
/edits 
/fsimage 
/fstime 
i 


其 中 ，dfs.name.dir 属 性 是 一 个 目录 列表 ， 是 每 个 目录 的 镜像 。VERSION 文 件 是 Java 属 
性 文件 ， 其 中 包含 运行 HDFS 的 版 本 信息 。 下 面 是 一 个 典型 的 VERSION 文 件 包含 的 内 容 : 




















= = 一 = 
#Wed Mar 23 16: 03: 27 CST 2011 
namespacelID=1064465394 
cTime=0 
storageType=NAME NODE 
layoutVersion=-18 


ES 








其 中 ，namespaceID 是 文件 系统 的 唯一 标识 符 。 在 文件 系统 第 一 次 被 格式 化 时 便 会 创建 
namespaceID 。 这 个 标识 符 也 要 求 各 DataNode 节 点 和 NameNode 保 持 一 致 。NameNode 会 使 
此 标识 符 识别 新 的 DataNode。DataNode 只 有 在 向 NameNode 注 册 后 才 会 获得 此 
namespaceID。cTime 属 性 标记 了 NameNode 存 储 空间 创建 的 时 间 。 对 于 新 格式 化 的 存储 空 
间 ， 虽 然 这 里 的 cTime 属 性 值 为 0， 但 是 只 要 文件 系统 被 更 新 ， 它 就 会 更 新 到 一 个 新 的 时 间 
惟 。storageType 用 于 指出 此 存储 目录 包含 一 个 NameNode 的 数据 结构 ， 在 DataNode 中 它 的 属 
性 值 为 DATA_NODE。 


















































layoutVersion 是 一 个 负 的 整数 ， 定 义 了 HDFS 持 久 数据 结构 的 版 本 。 注 意 ， 该 版 本 号 和 
Hadoop 的 发 行 版 本 号 无 关 。 每 次 HDFS 的 布局 发 生 改变 ， 该 版 本 号 就 会 递减 (比如 -18 版 本 号 
之 后 是 -19) ， 在 这 种 情况 下 ，HDFS 就 需要 更 新 升级 ， 因 为 如 果 一 个 新 的 NameNode 或 
DataNode 还 处 在 旧版 本 上 ， 那 么 系统 就 无 法 正常 运行 ， 各 节点 的 版 本 号 要 保持 一 致 。 























NameNode 的 存储 目录 包含 edis、fsimnage、fstime 三 个 文件 。 它 们 都 是 二 进 制 的 文件 ， 
可 以 通过 HadoopWritable 对 象 进行 序列 化 。 下 面 将 深入 介绍 NameNode 的 工作 原理 ， 以 便 使 
大 家 更 清晰 地 理解 这 三 个 文件 的 作 




















2. 编 辑 日 志 Cedit log) 及 文件 系统 映像 (filesy stem image) 
当 客 户 端 执行 写 操作 时 ，NameNode 会 先 在 编辑 日 志 中 写 下 记录 ， 并 在 内 存 中 保存 一 个 


文件 系统 元 数据 ， 元 数据 会 在 编辑 日 志 有 所 改动 后 进行 更 新 。 内 存 中 的 元 数据 用 来 提供 读数 
据 请 求 服务 。 





























编辑 日 志 会 在 每 次 成 功 操作 之 后 、 成 功 代 码 尚 未 返回 给 客户 端 之 前 进行 刷新 和 同步 。 对 
于 要 写 入 多 个 目录 的 操作 ， 写 入 流 要 刷新 和 同步 到 所 有 的 副本 ， 这 就 保证 了 操作 不 会 因 故 障 
而 丢失 数据 。 














fsimage 文 件 是 文件 系统 元 数据 的 持久 性 检查 点 。 和 编辑 日 志 不 同 ， 它 不 会 在 每 个 文件 系 
统 的 写 操作 后 都 进行 更 新 ， 因 为 写 出 fsimage 文 件 会 非常 慢 (fsimage 可 能 增长 到 GB 大 小 )。 
这 种 设计 并 不 会 影响 系统 的 恢复 力 ， 因 为 如 果 NameNode 失 败 ， 那 么 元 数据 的 最 新 状态 可 以 
通过 将 从 磁盘 中 读 出 的 fsimage 文 件 加 载 到 内 存 中 来 进行 重建 恢复 ， 然 后 重新 执行 编辑 日 志 中 
的 操作 。 事 实 上 ， 这 也 正 是 NameNode 启 动 时 要 做 的 事情 。 一 个 fsimage 文 件 包含 以 序列 化 格 
式 存 储 的 文件 系统 目录 和 文件 nodes。 每 个 inodes 表 示 一 个 文件 或 目录 的 元 数据 信息 ， 以 及 文 
件 的 副本 数 、 修 改 和 访问 时 间 等 信息 。 

































































正如 上 面 所 描述 的 ，Hadoop 文 件 系统 会 出 现 编辑 日 志 不 断 增 长 的 情况 。 尽 管 在 
NameNode 运 行 期 间 不 会 对 系统 造成 影响 ， 但 是 ， 如 果 NameNode 重 新 启动 ， 它 将 会 花费 很 




















长 时 间 来 运行 编辑 日 志 中 的 每 个 操作 。 在 此 期 间 《〈 即 安全 模式 时 间 ) ， 文 件 系统 还 是 不 可 
的 ， 通 常 来 说 这 是 不 符合 应 用 需求 的 。 























为 了 解决 这 个 问题 ，Hadoop 在 NameNode 之 外 的 节点 上 运行 一 个 Secondary NameNode 
进程 ， 它 的 任务 就 是 为 原 NameNode 内 存 中 的 文件 系统 元 数据 产生 检查 点 。 其 实 Secondary 
NameNode 是 一 个 辅助 NameNode 处 理 fsimage 和 编辑 日 志 的 节点 ， 它 从 NameNode 中 复制 
fsimage 和 编辑 日 志 到 临时 目录 并 定期 合并 生成 一 个 新 的 fsimage， 随 后 它 会 将 新 的 fsimage 上 
传 到 NameNode， 这 样 ，NameNode 便 可 更 新 fsimage 并 删除 原来 的 编辑 日 志 。 下 面 我 们 参照 
图 10-1 对 检查 点 处 理 过 程 进行 描述 。 


























下 面 介绍 检查 点 处 理 过 程 的 具体 步 又 。 


1) Secondary NameNode 首 先 请 求 原 NameNode 进 行 edits 的 滚动 ， 这 样 新 的 编辑 操作 就 
能 够 进入 一 个 新 的 文件 中 了 。 











2) Secondary NameNode 通 过 HTTP 方 式 读 取 原 NameNode 中 的 fsimage 及 edits。 


3) Secondary NameNode 读 取 fsimage 到 内 存 中 ， 然 后 执行 edits 中 的 每 个 操作 ， 并 创建 一 
个 新 的 统一 的 fsimage 文 件 。 














4) Secondary NameNode (通过 HTTP 方 式 ) 将 新 的 fsimage 发 送 到 原 NameNode。 

















5) 原 NameNode 用 新 的 fsimage 蔡 换 旧 的 fsimage， 旧 的 edits 文 件 通过 步骤 1) 中 的 edits 进 
行 蔡 换 。 同 时 系统 会 更 新 fsimage 文 件 到 记录 检查 点 记录 的 时 间 。 








原 NameNoade 


edits (wm) 


1. edits 滚 动 


Secondary NameNade 






2. 从 原 NameNode 中 获取 
image Fl ofits 


5. Ai fsimage.ckpi 


Ail edits.new 3. as \ 






4. 传输 检查 点 型 原 NamceNadc 


图 10-1 检查 点 处 理 过 程 


在 这 个 过 程 结束 后 ，NameNode 就 有 了 最 新 的 fsimage 文 件 和 更 小 的 edits 文 件 。 
对 于 NameNode 在 安全 模式 下 的 这 种 情况 ， 管 理 员 可 以 通过 以 下 命令 运行 这 个 过 程 : 








hadoop dfsadmin-saveNamespace 





这 个 过 程 清晰 地 表明 了 Secondary NameNode 要 有 和 原 NameNode 一 样 的 内 存 需 求 的 原 











一 要 把 fsimage 加 载 到 内 





有 关 检 查 点 的 时 间 表 


查 点 (fs.chec-kpoint.period， 以 秒 为 单位 ) ， 如 果 编 辑 日 志 达 到 64MB (fs.checkpoint.size， 








办 








行 中 ， 














li 





字 节 为 单位 ) ， 则 间隔 时 





3.Secondary NameNode 的 目录 结构 


此 Secondary NameNode 在 集群 中 











P 也 需要 有 专 








机 器 。 





更 短 ， 每 隔 5 分 钟 会 检查 一 次 。 


两 个 配置 参数 决定 。Secondary NameNode 每 小 时 会 插入 一 个 检 


以 


Secondary NameNode 在 每 次 处 理 过 程 结 束 后 都 有 一 个 检查 点 。 这 个 检查 点 可 以 在 一 个 


子 目录 /previous.checlpointdr 





找到， 可 以 作为 NameNode 的 元 数据 备份 源 ， 目 录 如 下 : 


二 一 
${fs.checkpoint.dir}/current/VERSION 


/edits 
/fsimage 
/fstime 


/previous.checkpoint/VERSION 


/edits 
/fsimage 
/fstime 


[| 


以 上 这 个 目录 和 Secondary NameNode 的 /current 


到 























dfs.name.dir 所 指定 





(as 
A © 


载 fs.checkpoint.dir 属 性 定义 
的 目录 下 没有 元 数据 的 情况 下 才 进 行 ， 这 样 就 避免 了 寻 


的 是 : 万 一 整个 NameNode 发 生 故 障 ， 寺 
就 可 以 直接 从 Secondary NameNode 恢 复 。 有 具体 方 式 有 两 种 ， 第 一 种 是 直接 复制 相关 的 目 
新 的 NameNode 中 。 第 二 种 是 在 启动 NameNode 守 
-importCheclpoint 选 项 ， 并 作为 新 的 NameNode 继 续 运 行 任 务 。-importCheckpoint 选 项 ; 
的 目录 中 的 最 新 检查 点 的 NameNode 数 据 ， 但 这 种 操作 只 有 在 
至 写 之 前 元 数据 














4.DataNode 的 目录 结构 





FARA 














于 1 


次 复 的 备份 ， 甚 至 NFS 吕 


目录 结构 是 完全 相同 的 。 


这 样 设计 的 目 
P 也 没有 备份 ， 
录 





护 进 程 时 ，Secondary 











以 使 
ep 


ameNode 可 





的 风 


DataNode 不 需要 进行 格式 化 ， 它 会 在 启动 时 自己 创建 存储 目录 ， 其 


如 下 : 











二 





关键 的 文件 和 目录 





一 
${dfs.data.dir}/current/VERSION 
/blk_<id_1> 
/blk_<id_1>.meta 
/blk_<id_2> 
/blk_<id_2>.meta 


/subdir0/ 
/subdirl/ 


/subdir63/ 
一 


DataNode 的 VERSION 文 件 和 NameNode 的 非常 类 似 ， 内 容 如 下 : 


aa | 
#Tue Mar 10 21: 32: 31 GMT 2010 
namespaceID=134368441 
storageID=DS-547717739-172.16.85.1-50010-1236720751627 
cTime=0 
storageType=DATA_NODE 
layoutVersion=-18 


一 

















中 ，namespaceID 、cTime 和 1layoutVersion 值 与 NameNode 中 的 值 都 是 一 样 的 ， 





namaspaceID 在 第 一 次 连接 NameNode 时 就 会 从 中 获取 。stroageID 相 对 于 DataNode 来 说 是 唯 


一 的 ， 




















于 在 NameNode 处 标识 DataNode。storageType 将 这 个 目录 标志 为 DataNode 数 据 存 


储 目录 。 














DataNode 中 current 目 录 下 的 其 他 文件 都 有 blk refix 前 绥 ， 它 有 两 种 类 型 ; 








D HDFS 中 的 文件 块 本 身 ， 存 储 的 是 原始 文件 内 容 ; 




















2) 块 的 元 数据 信息 (使 用 .meta 后 级 标识 ) 。 一 个 文件 块 由 存储 的 原始 文件 字 节 组 成 ， 
元 数据 文件 由 一 个 包含 版 本 和 类 型 信息 的 头 文件 和 一 系列 块 的 区 域 校 验 和 组 成 。 






































于 保存 新 














存储 的 块 数量 增加 到 一 定 规模 时 ，DataNode 会 创建 一 个 新 的 目录 ， 
dfs.DataNode.numblocks 属 性 值 确定 ) 时 ， 便 


文件 树 结构 ， 避 免 了 由 于 存储 大 量 数 据 块 而 导 
的 措施 ， 数 据 节 点 可 以 确保 每 个 目录 中 的 文件 





当 目录 上 
的 块 及 元 数据 。 当 目录 中 的 块 数量 达到 64 (可 
会 新 建 一 个 子 目 录 ， 这 样 就 会 形成 一 个 更 宽 的 
致 目录 很 深 ， 使 检索 性 能 免 受 影响 。 通 过 这 样 
块 数 是 可 控 的 ， 也 避免 了 一 个 目录 中 存在 过 多 文件 。 












































10.2 ”Hadoop 的 状态 监视 和 管理 工具 


对 一 个 系统 运 维 的 管理 员 来 说 ， 进 行 系统 监控 是 必须 的 。 监 控 的 目的 是 了 解 系统 何 时 出 
现 问题 ， 并 找到 问题 出 在 哪里 ， 从 而 做 出 相应 的 处 理 。 管 理 守护 进程 对 监控 NameNode、 
DataNode 和 JobTracker 是 非常 重要 的 。 在 实际 运行 中 ， 因 为 DataNode 及 TaskTracker 的 故障 可 
能 随时 出 现 ， 所 以 集群 需要 提供 额外 的 功能 以 应 对 少 部 分 节点 出 现 的 故障 。 管 理 员 也 要 隔 一 
段 时 间 执行 一 些 监测 任务 ， 以 获知 当前 集群 的 运行 状态 。 本 节 将 详细 介绍 Hadoop 如 何 实现 系 
统 监控 。 
































10.2.1 审计 由 起 





HDFS 通 过 审计 日 志 可 以 实现 记录 文件 系统 所 有 文件 访问 请 求 的 功能 ， 其 审计 日 志 功能 
通过 log4j 实现 ， 但 是 在 默认 配置 下 这 个 功能 是 关闭 的 : log 的 记录 等 级 在 log4j.properties 中 被 
设置 为 WARN: 








[= | 
log4j.logger.org.apache.hadoop.fs.FSNamesystem.audit=WARN 
| 


在 此 处 将 WARN 修 改 为 INFO， 便 可 打开 审计 日 志 功能 。 这 样 在 每 个 HDFS 事 件 之 后 ， 系 
统 都 会 在 NameNode 的 log 文 件 中 写 入 一 行 记录 。 下 面 是 一 个 请 求 /usr/hadoop 文 件 的 例子 : 











ee | 
2010-03-13 07: 11: 22, 982 INFO 
org.apache.hadoop.hdfs.server.namenode.FSNamesystem. audit: 
ugi=admin, staff, admin ip=/127.0.0.1 cmd=listStatus 
src=/user/admin=null 
perm=null 
SeSSS—SSS==========S==SS=—=SS=SS=—SS=—S—SSS—S-—SSSSSSSSSSSSS 











关于 log4j 还 有 很 多 其 他 配置 可 改 ， 比 如 可 以 将 审计 日 志 从 NameNode 的 日 志文 件 中 分 离 
出 来 等 。 具 体操 作 可 查看 Hadoop 的 Wiki: http: /wiki.apache.org/hadoop/HowToConfigure 。 

















10.2.2 ”监控 日 志 





所 有 Hadoop 守 护 进程 都 会 产生 一 个 日 志文 件 ， 这 对 管理 员 来 说 非常 重要 。 下 面 我 们 就 介 
绍 如 何 使 用 这 些 日 志文 件 。 























1. 设 置 日 志 级 别 


当 进 行 故障 调试 排除 时 ， 很 有 必要 临时 调整 日 志 的 级 别 ， 以 获得 系统 不 同类 型 的 信息 。 
log4j 日 志 一 般 包 含 这 样 几 个 级 别 : OFF, FATAL, ERROR, WARN, INFO, DEBUG, ALL 
或 用 户 自 定义 的 级 别 。 






































Hadoop 守 护 进程 有 一 个 网 络 页 面 可 以 用 来 调整 任何 log4j 日 志 的 级 别 ， 在 守护 进程 的 网 络 
UI 后 附 后 缀 /MogLevel 即 可 访问 该 网 络 页 面 。 按 照 规定 ， 日 志 的 名 称 和 它 所 对 应 的 执行 日 志 记 
录 的 类 名 是 一 样 的 ， 可 以 通过 查找 源 代码 找到 日 志 名 称 。 例 如 ， 为 了 调试 JobTracker 类 的 日 
志 ， 可 以 访问 JobTracker 的 网 络 UI: http: /jobtracker-host: 50030/logLevel， 同 时 设置 日 志 名 
称 org.apache.hadoop.mapred.JobTracker 到 层级 DEBUG。 当 然 也 可 以 通过 命令 行进 行 调整 ， 
代码 如 下 : 








ee | 
hadoop daemonlog-setlevel jobtracker-host: 50030\ 
org.apache.hadoop.mapred.JobTracker DEBUG 


ee | 


通过 命令 行 修 改 的 日 志 级 别 会 在 守护 进程 重启 时 被 重 置 ， 如 果 想 要 持久 化 地 改变 日 志 级 
别 ， 那 么 只 要 改变 log4j.properties 文 件 内 容 即 可 。 我 们 可 以 在 文件 中 加 入 以 下 行 : 

















一 
log4j.logger.org.apache.hadoop.mapred.JobTracker=DEBUG 
一 


2. 获 取 堆 栈 信息 


有 关系 统 的 堆栈 信息 ，Hadoop 守 护 进程 提供 了 一 个 网 络 页 面 〈 在 网 络 UI 后 附 后 缀 /stacls 
才 可 以 访问 ) ， 该 网 络 页 面 可 以 为 管理 员 提 供 所 有 守护 进程 JVM 中 运行 的 线程 信息 。 可 以 通 





过 以 下 链接 访问 该 网 络 页 面 : http: /jobtracker-host: 50030/stacks. 


10.2.3 Metrics 




















了 实 上 ， 除 了 Hadoop 自 带 的 日 志 功 能 以 外 ， 还 有 很 多 其 

















他 可 以 扩展 的 Hadoop 监 控 程 序 


供 管理 员 使 用 。 在 介绍 这 些 监控 工具 之 前 ， 先 对 系统 的 可 度量 信息 (Metrics) 进行 简单 讲 











HDFS 及 MapReduce 的 守护 进程 


度量 规则 称 为 Metrics。 例 如 ，DataNode 会 收 介 


块 数 及 来 自 客 户 端的 请 求 数 等 。 


Metrics 属 于 一 个 上 下 文 ， 当 前 Hadoop 拥 有 dfs、mapred、rpc、jvm 等 上 下 文 。Hadool 
护 进程 会 收集 多 个 上 下 文 的 度量 信息 。 所 谓 上 下 文 即 应 用 P 
提供 的 一 个 完整 的 运行 时 环境 。 进 程 的 运行 时 环境 是 由 它 的 程序 代码 和 程序 运行 所 需要 的 数 








据 结构 以 及 硬件 环境 组 成 的 。 


这 里 我 们 认为 ， 一 个 上 下 文 定义 了 一 个 单元 ， 比 如 ， 可 以 选择 获取 dfs 上 下 文 或 jvm 上 


会 按照 一 定 的 规则 来 收 外 




















程序 进入 系统 执行 时 ， 系 统 为 用 


博 系 统 的 度量 信息 。 我 们 将 这 种 
二 如 下 度量 信息 : 写 入 的 字 节 数 、 被 复制 的 文件 











文 。 我们 可 以 通过 配置 conf/hadoopmetrics.properties 文 件 设 定 Metrics。 在 默认 情况 下 ， 会 将 





所 有 上 下 文 都 配置 为 NullContext 类 ， 这 代表 它们 不 会 发 布 任何 Metrics。 下 面 是 配置 文件 和 


认 配 置 情 况 : 





p 守 


P 


的 默 


| 
dfs.class=org.apache.hadoop.metrics.spi.NullContext 
mapred.class=org.apache.hadoop.metrics.spi.NullContext 
jvm.class=org.apache.hadoop.metrics.spi.NullContext 
rpc.class=org.apache.hadoop.metrics.spi.NullContext 


一 














其 中 每 一 行 都 针对 一 个 不 同 的 J 
类 。 这 里 的 类 必须 是 MetricsContext 








上 下 文 单元 ， 同 时 每 一 行 定义 了 处 理 此 上 下 文 Metrics 的 





以 口 的 一 个 实现 ; 在 上 面 的 例子 了 


如 其 名 ， 什 么 都 不 做 ， 既 不 发 布 也 不 更 新 它们 的 Metrics。 
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下 面 我 们 来 介绍 MetricsContext 





Be ASC. 


hh， 这 些 NullContext 类 正 





1.FileContext 








利用 FileContext 可 将 Metrics 写 入 本 地 文件 。FileContext 拥 有 两 个 属性 : fileName 一 定义 文 
件 的 名 称 ，period 一 指定 文件 更 新 的 间隔 。 这 两 个 属性 都 是 可 选 的 ， 如 果 不 进 行 设置 ， 那 么 
Metrics 每 隔 5 秒 就 会 写 入 标准 输出 。 








之 























配置 属性 将 应 用 于 指定 的 上 下 文中 ， 并 通过 在 上 下 文 名 称 后 附加 点 “.” 及 属性 名 进行 标 
示 。 比 如 ， 为 了 将 jvm 导 出 一 个 文件 ， 我 们 会 通过 以 下 方法 调整 它 的 配置 : 
MMN 


jvm.class=org.apache.hadoop.metrics.file.FileContext 
jvm. fileName=/tmp/jvm_metrics.log 


Ce 
其 中 ， 第 一 行使 用 FileContex 来 改变 jvm 的 上 下 文 ， 第 二 行将 jvm 上 下 文 导出 临时 文件 。 
























































需要 注意 的 是 ，FileContext 非 常 适 合 于 本 地 系统 的 调试 ， 但 是 它 并 不 适合 在 大 型 集群 中 
使 用 ， 因 为 它 的 输出 文件 会 被 分 散 到 集群 中 ， 使 分 析 的 时 间 成 本 变 得 很 高 。 
































2.GangliaContext 























Ganglia (http: //ganglia. info) 是 一 个 开源 的 分 布 式 监控 系统 ， 主 要 应 用 于 大 型 分 布 式 
集群 的 监控 。 通 过 它 可 以 更 好 地 监控 和 调整 集群 中 每 个 机 器 节点 的 资源 分 配 。Ganglia 本 身 会 
收集 一 些 监控 信息 ， 包 括 CPU 和 内 存 使 用 率 等 。 通 过 使 用 GangliaContext 我 们 可 以 非常 方便 地 



























































将 Hadoop 的 一 些 测量 内 容 注 入 Ganglia 中 。 此 外 ，GangliaContext 有 一 个 必须 的 属性 一 
servers， 它 的 属性 值 是 通过 空格 或 逗号 分 隔 的 Ganglia 服 务 器 主机 地 址 : 端口。 我 们 将 在 
10.2.5 节 中 进行 详细 讲解 。 





3.NullContextWithUpdateThread 


通过 前 面 的 介绍 ， 我 们 会 发 现 FileContext 和 GangliaContext 都 将 Metrics 推 广 到 外 部 系统 。 
而 Hadoop 内 部 度量 信息 的 获取 需要 另外 的 工具 ， 比 如 著名 的 Java 管 理 扩展 Cava 
Management Extensions, JMX) ，JMX 中 的 NullContextWithUpdateThread 就 是 用 来 解决 这 个 






































问题 的 《我 们 将 在 后 面 进行 详细 讲解 ) 。 和 NullContext 相 似 ， 它 不 会 发 布 任何 Mertics， 但 是 
已 会 运行 一 个 定时 器 周期 性 地 更 新 内 存 中 的 Metrics， 以 保证 另外 的 系统 可 以 获得 最 新 的 


Metrics. 











aH 








除 NullContextWithUpdateThread 外 ， 所 有 MetricsContext 都 会 执行 这 种 在 内 存 中 定时 更 新 
的 方法 ， 所 以 只 有 当 不 使 用 其 他 输出 进行 Metrics 收 集 时 ， 才 需要 使 用 NullContext- 
WithUpdateThread。 举 例 来 说 ， 如 果 之 前 正在 使 用 GangliaContext， 那 么 随后 只 要 确认 
Metrics 是 否 被 更 新 ， 而 且 只 需要 使 用 JIMX， 不 用 进一步 对 Metrics 系 统 进行 配置 。 
















































































4.CompositeContext 








CompositeContext 人 允许 我 们 输出 多 个 上 下 文中 的 相同 的 Metrics， 比 如 下 面 的 这 个 例子 : 


jvm.class=org.apache.hadoop.metrics.spi.CompositeContext 
jvm.arity=2 
jvm.subl.class=org.apache.hadoop.metrics.file.FileContext 

jvm. fileName=/tmp/jvm_metrics.log 
jvm.sub2.class=org.apache.hadoop.metrics.ganglia.GangliaConte: 
jvm.servers=ip-10-70-20-111.ec2.internal: 8699 














其 中 arity 属性 用 来 定义 子 上 下 文 数量 ， 在 这 里 它 的 值 为 2。 所 有 子 上 下 文 的 属性 名 称 都 


可 以 使 用 下 面 的 句子 设置 : jvm.subl.class=org.apache.hadoop.metrics.file.FileContext。 
































10.2.4 _ Java 管理 扩展 











Java 管 理 扩 展 OMX) 是 一 个 为 应 用 程序 、 设 备 、 系 统 等 植 入 管理 功能 的 框架 。JMX 可 
以 跨越 一 系列 异 构 操作 系统 平台 、 系 统 体系 结构 和 网 络 传输 协议 ， 灵 活 地 开发 无 颖 集成 的 系 


统 、 网 络 和 服务 管理 应 用 。Hadoop 包 含 多 个 MBean (Managed Bean， 管 理 服务 ， 它 描述 一 




































































个 可 管理 的 资源 ) ， 它 可 以 将 Hadoop 的 Metrics 应 用 到 基于 JMX 的 应 用 程序 中 。 当 前 MBeans 

















可 以 将 Metrics 展 示 到 dfs 和 rpc 上 中 文中 ， 但 不 能 在 mapred 及 jvm 上 下 文中 实现 。 表 10-1 是 
MBeans 的 列表 。 


表 10-1 Hadoop 的 MBeans 
























MBean 类 后 台 进 程 w W 
NamcNodeActivityMBean 名 称 节点 名 称 节 点 活动 的 放量， 比如 创建 广 
FsaNamesystemMbean 名 称 节点 基 ， 比 如 已 连接 
DataNodeActivityMbean 数据 节点 “en 和 点 活动 度量 ， 比 如 读 入 的 宇 

i} 
FSdatasetMbean 数据 他 点 EGR ATP AER. Weare mS 2 
HRTF fi fa) 











RAE RPC 的 守护 进程 : 名 称 节 点 、 数 | RPC 统计 数据， 比如 平均 处 理 
i, JobTracker 和 TaskTracker 时 间 





RpcActivityMbean 

















JDK 中 的 Jconsole 工 具 可 以 帮助 我 们 查看 JVM 中 运行 的 MBeans 信 息 ， 使 我 们 很 方便 地 浏 
览 Hadoop 中 的 监控 信息 。 很 多 第 三 方 监控 和 调整 系统 (Nagios 和 Hyperic 等 ) 可 用 于 查询 
MBeans， 这 样 JMX 自 然 就 成 为 我 们 监控 Hadoop 系 统 的 最 好 工具 。 但 是 ， 需 要 设置 支持 远程 
访问 的 JMX， 并 且 设 置 一 定 的 安全 级 别 ， 包 括 密码 权限 、SSL 链 接 及 SSL 客 户 端 权限 设置 等 。 
为 了 使 系统 支持 远程 访问 ，JMX 要 求 对 一 些 选 项 进行 更 改 ， 其 中 包括 设置 Java 系 统 的 属性 
〈 可 以 通过 编辑 Hadoop 的 conffhadoop-envsh 文 件 实现 ) 。 下 面 的 例子 展示 了 如 何 通 过 密码 远 
























































程 访 问 NameNode 中 的 JMX (在 SSL 不 可 用 的 条 件 下 》: 
一 


export HADOOP_NameNode_OPTS="-Dcom.sun.management.jmxremote 
-Dcom.sun.management.jmxremote.ssl=false 





Dcom.sun.management .jmxremote.password. file=$HADOOP_CONF_DIR/jmxr 


Dcom.sun.management.jmxremote.port=8004$HADOOP_NameNode_OPTS" 
一 

















jmxremote. password 文 件 以 纯 文本 的 格式 列 出 了 所 有 的 用 户 名 和 密码 。JMX 文 档 有 关于 
jmxremote.password 文 件 的 更 进一步 的 格式 信息 。 











通过 以 上 的 配置 ， 我 们 可 以 使 用 JConsole 工 具 浏 览 远程 NameNode 中 的 MBean 监 控 信 
息 。 事 实 上 ， 我 们 还 有 很 多 其 他 方法 实现 这 个 功能 ， 比 如 通过 jmxquery (一 个 命令 行 工具 ， 
具体 信息 可 查看 http: //code.google.com/p/jmxquery/) 来 检索 低 于 副本 要 求 的 块 : 


























上 条 

./check_jmx-U service: jmx: rmi: ///jndi/rmi: //NameNode-host: 
8004/jmxrmi-O\ 

hadoop: service=NameNode, name=FSNamesystemState-A 
UnderReplicatedBlocks\ 

-w 100-c 1000-username monitorRole-password secret 

JMX OK-UnderReplicatedBlocks is 0 


[Cm 
通过 jmxquery 命 令 创建 一 个 JMX RMI 链 接 ， 链 接 到 NameNode 主 机 地 址 上 ， 端 口号 为 
8004。 它 会 读 取 对 象 名 为 hadoop: service=NameNode, name=FSNamesystemState 的 
UnderReplicatedBlocls 属 性 ， 并 将 读 出 的 值 写 入 终端 。-w、-c 选 项 定义 了 警告 和 数值 的 临界 
值 ， 这 个 临界 值 的 选 定 要 在 我 们 运行 和 维护 集群 一 段 时 间 以 后 才能 选 出 比较 合适 的 经 验 值 。 





需要 注意 的 是 ， 尽 管 我 们 可 以 通过 JMX 的 默认 配置 看 到 Hadoop 的 监控 信息 ， 但 是 它们 不 
会 自动 更 新 ， 除 非 更 改 MetricContext 的 具体 实现 。 如 果 JMX 是 我 们 使 用 的 监控 系统 信息 的 唯 
一 方法 ， 那 么 就 可 以 把 MetricContext 的 实现 更 改 为 NullContextWithUpdateThread。 



































通常 大 多 数 人 会 使 用 Ganglia 和 另外 一 个 可 选 的 系统 〈 比 如 Nagios) 来 进行 Hadoop 集 群 的 
检测 工作 。Ganglia 可 以 很 好 地 完成 大 数据 量 监控 信息 的 收集 和 图 形 化 工作 ， 而 Nagios 及 类 似 
的 系统 则 更 擅长 处 理 小 规模 的 监控 数据 ， 并 且 在 监控 信息 超出 设 定 的 监控 阔 值 时 发 出 警告 。 
管理 者 可 以 根据 需求 选择 合适 的 工具 。 下 一 节 我 们 就 对 Ganglia 的 使 用 配置 进行 详细 讲解 。 



























































10.2.5 Ganglia 








Ganglia S£UC Berkeley 发 起 的 一 个 开源 集群 监视 项 目 ， 用 于 测量 数 以 千 计 的 节点 集群 。 
Ganglia 的 核心 包含 两 个 Daemon 〈 分 别 是 客户 端 Ganglia Monitoring Daemon (gmond) 和 服 




















a 

















务 端 Ganglia Meta Daemon (gmetad) ， 以 及 一 个 Web 前 端 。Daemon 主 要 是 用 来 监控 系统 性 
能 ， 如 CPU、memory 、 硬 盘 利 用 率 、LO 负 载 、 网 络 流量 情况 等 ，Web 前 端 页 面 主要 用 于 获 
得 各 个 节点 工作 状态 的 曲线 描述 。Ganglia 可 以 帮助 我 们 合理 调整 、 分 配 系统 资源 ， 为 提高 系 
统 整体 性 能 起 到 了 重要 作 




































































处 于 监控 状态 下 的 每 台 位 于 节点 上 的 计算 机 都 需要 运行 一 个 收集 和 发 送 度量 数据 的 名 为 
gmond 的 守护 进程 。 接 收 所 有 度量 数据 的 主机 可 以 显示 这 些 数据 ， 并 且 可 以 将 这 些 数 据 传递 
到 监控 主机 中 。gmond 带 来 的 系统 负载 非常 少 ， 它 的 运行 不 会 影响 用 户 应 用 进程 的 性 能 。 多 
次 收集 这 些 数据 则 会 影响 节点 性 能 。 网 络 中 的 “抖动 "发 生 在 大 量 小 消息 同时 出 现时 ， 可 以 通 
过 将 节点 时 钟 保持 一 致 来 避免 这 个 问题 。 















































gmetad 可 以 部 署 在 集群 内 任 一 台 位 于 节点 上 的 或 通过 网 络 连接 到 集群 的 独立 主机 中 ， 它 
通过 单 播 路 由 的 方式 与 gmond 通 信 ， 收 集 区 域内 节点 的 状态 信息 ， 并 以 XML 数据 的 形式 保存 
在 数据 库 中 。 最 终 由 RRDTool 工 具 处 理 数据 ， 并 生成 相应 的 图 形 显示 ， 以 Web 方 式 直 观 地 提 
供给 客户 端 。 这 个 服务 器 可 以 被 看 做 是 一 个 信息 收集 的 装置 ， 可 以 同时 监控 多 个 客户 端的 系 
统 状况 ， 并 把 信息 显示 在 Web 界 面 上 。 通 过 Web 端 连接 这 个 服务 器 ， 就 可 以 看 到 它 所 监控 的 
所 有 机 器 状态 。 





























1. 服 务 器 端的 安装 与 配置 


首先 需要 在 服务 器 端 安装 下 列 包 : ganglia-gmetad-3.0.3-1.fc4.i386.rpm 〈 从 各 个 网 段 获取 
汇总 监控 信息 ) ，rrdtool-1.2.18-1.el4.rfi386.rpm (显示 图 像 的 工具 ) ，rrdtool-devel-1.2.18- 





1.el4.rfi386.rpm, ganglia-web-3.0.3-1.noarch.rpm (Ganglia 的 Web 程 序 ) ，perl-rrdtool-1.2.18- 
1.el4.rfi386.rpm 。 使 用 # 扩 pm-ivh 软 件 包 .rpm 可 以 安装 这 些 包 。 




















安装 完成 之 后 ， 找 到 Ganlia 服 务 端的 配置 文档 : /etclgmetad.conf， 可 以 根据 不 同 的 需求 
进行 配置 。 在 这 里 只 简单 介绍 一 下 如 何 添加 或 修改 要 监控 的 系统 。 先 通过 #wietc/gmetad.conf 
命令 (进入 编辑 ) ， 找 到 data_source“Login FARM” 10.77.20.111: 8651 10.77.20.111: 
8699〔 后 面 的 这 些 IP 地 址 就 是 要 监控 的 主机 ， 冒 号 后 跟 的 是 要 监听 的 端口 号 ， 这 个 端口 号 将 
在 介绍 客户 端的 配置 时 提 到 ) 。 其 他 属性 保持 默认 配置 即 可 。 











配置 完成 后 要 重启 gmetad 服 务 : #service gmetad restart。 下 面 我 们 来 配置 虚拟 主机 ， 设 
置 路 径 DocumentRoot 为 "/var/www/htmlganglia": 


Fe 
# 配 置 虚拟 主机 
<Directory"/var/www/html/ganglia"> 
Options Indexes FollowSymLinks 
AllowOverride None 
Order allow, deny 
Allow from all 
</Directory> 


5 








然后 重启 httpd 服 务 : service httpd restart， 即 完成 服务 器 端的 安装 和 配置 。 





2. 客 户 端 的 安装 与 配置 


在 客户 端 安装 Ganglia， 是 为 了 收集 本 机 的 信息 ， 并 通过 设置 好 的 端口 把 信息 传 给 服务 器 
端 ， 因 此 我 们 需要 在 所 有 节点 上 进行 相应 的 安装 和 配置 。 下 面 我 们 来 讲解 如 何 进行 客户 端的 




















首先 在 客户 端 安装 软件 包 ganglia-gmond-3.0.3-1.fc4.386.rpm 。 安 装 完成 后 ， 找 到 它 的 
配置 文档 /etc/gmond.conf 并 打开 编辑 (#vi/etc/gmond.conf) 。 接 着 找到 配置 文件 中 如 下 部 分 
并 按照 所 给 出 的 例子 进行 配置 。 


MES 
/*You can specify as many tcp_accept_channels as you like to 
share 
an xml description of the state of the cluster*/ 


tcp_accept_channel{ 
port=8699/* 注 释 : 这 个 是 端口 ， 通 过 它 来 传送 系统 信息 。 注 意 要 和 服务 器 端 监听 的 














端口 一 致 */ 


acl{ 

default="deny" 

access { 

ip=10.77.20.111/*3ERR: 这 里 是 服务 器 的 ITP 地 址 */ 
mask=32 


action="allow" 


th} 








完成 配置 后 ， 重 启 gmond 服 务 (#service gmond restart) 即 可 。 至 此 Ganglia 在 服务 器 端 
和 客户 端的 安装 完成 ， 我 们 可 以 查看 它 的 运行 状态 ， 如 图 10-2 所 示 。 
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图 10-2 Ganglia 的 监控 页 面 








事实 上 ， 有 很 多 其 他 可 以 扩展 Hadoop 监 控 能 力 的 工具 比如 本 书 第 17 章 介绍 的 Chukwa， 
它 是 一 个 数据 收集 和 监控 系统 ， 构 建 于 HDFS 和 MapReduce 之 上 ， 也 是 可 供 管 理 员 选 择 的 监 
空 工具 。Chukwa 可 以 统计 分 析 日 志文 件 ， 从 而 提供 给 管理 员 想 要 的 信息 。 














10.2.6 ”Hadoop 管 理 命令 


在 了 解 扩展 的 监控 管理 工具 的 同时 ， 也 不 能 忘记 Hadoop 本 身 为 我 们 提供 了 相应 的 系统 管 
理工 具 ， 本 节 我 们 就 对 相关 的 工具 进行 介绍 。 











1.dfsadmin 








dfsadmin 是 一 个 多 任务 的 工具 ， 我 们 可 以 使 用 它 来 获取 HDFS 的 状态 信息 ， 以 及 在 HDFS 
上 执行 的 管理 操作 。 管 理 员 可 以 在 终端 中 通过 Hadoop dfsadmin 命 令 调用 它 ， 这 里 需要 使 用 超 
级 用 户 权限 。dfsadmin 相 关 的 命令 如 表 10-2 所 示 。 




































































表 10-2 dfsadmin 命令 解析 
命令 选项 fi i 
-report 报告 文件 系统 的 基本 信息 和 统计 入 息 
安全 模式 维护 命令 。 安 全 模式 是 NameNode 的 一 种 状态 ， 在 这 种 状 
态 下 ，NameNode 不 接受 对 名 3 辐 的 更 改 【 只 读 ) 不 复制 或 删除 块 
会 在 启动 时 自动 进入 模式 ， 当 配置 块 的 最 小 百分数 
满足 最 小 副本 数 的 条 件 时 ， 会 自动 离开 安全 模式 .可 以 手动 进入 安全 
烧 式 ， 但 是 也 必须 手动 关闭 它 
重新 读 取 hosts Ail exclude 文件 ， 使 新 的 节点 或 需要 退出 集群 的 节点 
能 够 被 NameNode 重新 识别 。 
$ HDPS 的 升级 操作 。DataNode 删除 前 一 个 版 本 的 工作 目录 ， 之 
NameNode 也 这 样 做 


s | details | force 请 求 = Ft 者 进行 操作 


保存 NameNode 的 主要 数据 结构 到 hadoop log-dir 属性 指定 的 目录 下 
的 <filename> 文件 中 。 对 于 下 面 的 每 一 项 ，<filename> 中 都 有 一 行内 
容 与 之 对 应 : 

-metasave filename 1) NameNode 收 到 的 DataNode 的 心跳 信号 

2) 等 待 被 复制 的 块 

3) 正在 被 复制 的 块 

4) 等 待 被 删除 的 块 

为 每 个 目录 <dirname> 设 定 配额 <quota>。 有 目录 配额 是 一 个 长 整 型 烙 
数 ， 强 制 限定 目录 树 下 的 名 字 个 数 。 以 下 情况 会 报错 : 

D N 不 是 一 个 正 整 数 

2) 用 户 不 是 管理 员 

3) 这 个 目录 不 存在 或 为 文件 

录 会 马上 超出 新 设 定 的 配额 

















-safemode enter | leave | get | wait 





-refreshNodes 






-finalizcUpgrade 





-upgradeProgress stat 








-setQuota <quota> <dirname>...<dirname> 






配额 设 定 。 以 下 情况 会 报错 : 






Er » ‘hua conan 


-help [cmd] 定 命令 ， 则 显示 所 有 命令 的 





帮助 信 E 


2. 文 件 系统 验证 fsck) 











Hadoop 提 供 了 fsck 工 具 来 验证 HDFS 中 的 文件 是 否 正常 可 用 。 这 个 工具 可 以 检测 文件 块 是 
否 在 DataNode 中 丢失 ， 是 否 低 于 或 高 于 文件 副本 要 求 。 下 面 给 出 使 用 的 例子 : 


Eee 
hadoop fsck/ 
ea Status: HEALTHY 
Total size: 511799225 B 
Total dirs: 10 
Total files: 22 
Total blocks (validated) : 22 (avg.block size 23263601 B) 
Minimally replicated blocks: 22 (100.0%) 
Over-replicated blocks: 0 (0.0%) 















































Under-replicated blocks: 0 (0.0%) 
Mis-replicated blocks: 0 (0.0%) 
Default replication factor: 3 

Average block replication: 3.0 

Corrupt blocks: 0 

Missing replicas: 0 (0.0%) 

Number of data-nodes: 4 

Number of racks: 1 

The filesystem under path'/'is HEALTHY 


二 一 


fsck 会 递归 遍历 文件 系统 的 Namespace， 从 文件 系统 的 根 目录 开始 检测 它 所 找到 的 全 部 
文件 ， 并 在 它 验证 过 的 文件 上 标记 一 个 点 。 要 检查 一 个 文件 ，fsck 首 先 会 检索 元 数据 中 文件 
的 块 ， 然 后 查看 是 否 有 问题 或 是 否 一 致 。 这 里 需要 注意 的 是 ，fsck 验 证 只 和 NameNode 通 信 
而 不 和 DataNode 通 信 。 

















以 下 是 几 种 fsck 的 输出 情 


= 


(1) Over-replicated blocks 

















Over-replicated blocks 用 来 指明 一 些 文件 块 副本 数 超出 了 它 所 属 文件 的 限定 。 通 常 来 说 ， 
的 副本 数 存 在 并 不 是 问题 ，HDFS 会 自动 删除 多 余 的 副本 。 








(2) Under-replicated blocks 














Under-replicated blocks 用 来 指明 文件 块 数 未 达到 所 属 文件 要 求 的 副本 数量 。HDFS 也 会 自 
动 创建 新 的 块 直到 该 块 的 副本 数 能 够 达到 要 求 。 可 以 通过 hadoop dfsadmin-metasave 命 令 获 
正在 被 复制 的 块 信息 。 





EN 





(3) Misreplicated blocks 























Misreplicated blocks 用 来 指明 不 满足 块 副 本 存储 位 置 策略 的 块 。 例 如 ， 假 设 副本 因子 为 
3， 如 果 一 个 块 的 所 有 副本 都 存在 于 一 个 机 器 中 ， 那 么 这 个 块 就 是 Misreplicated blocls。 针 对 
这 个 问题 ，HDFS 不 会 自动 调整 。 我 们 只 能 通过 手动 设置 来 提高 该 文件 的 副本 数 ， 然 后 再 将 
它 的 副本 数 设置 为 正常 值 来 解决 这 个 问题 。 


























(4) Corrupt blocks 























Corrupt bloclks 用 来 指明 所 有 的 块 副本 全 部 出 现 问题 。 只 要 块 存在 的 副本 可 用 ， 它 就 不 会 
被 报告 为 Corruptblocls。NameNode 会 使 用 没有 出 现 问题 的 块 进行 复制 操作 ， 直 到 达到 目标 
值 。 





























(5) Missing replicas 











Missing replicas 用 来 表明 集群 中 不 存在 副本 的 文件 块 。 














Missing replicas 及 Corrupt blocls 被 关注 得 最 多 ， 因 为 出 现 这 两 种 情况 意味 着 数据 的 丢 
失 。fsck 默 认 不 去 处 理 那 些 丢失 或 出 现 问题 的 文件 块 ， 但 是 可 以 通过 命令 使 其 执行 以 下 操 
作 : 




















通过 -move， 将 出 现 问题 的 文件 放 入 HDFS 的 /lostrfound 文 件 夹 下 。 
通过 -delete 选 项 将 出 现 问 题 的 文件 删除 ， 删 除 后 即 不 可 恢复 。 


3. 找 到 某 个 文件 的 所 有 块 














fsck 提 供 一 种 简单 的 方法 用 于 查找 属于 某 个 文件 的 所 有 块 ， 代 码 如 下 : 


| 
hadoop fsck/user/admin/In/hello.txt-files-blocks-racks 
/user/admin/In/hello.txt 13 bytes, 1 block (s) : OK 
0.b1k_-8114668855310504639 1056 len=13 repl=1[/default- 
rack/127.0.0.1: 50010] 
Status: HEALTHY 
Total size: 13 B 
Total dirs: 0 
Total files: 1 
Total blocks (validated) : 1 (avg.block size 13 B) 
Minimally replicated blocks: 1 (100.0%) 
Over-replicated blocks: 0 (0.03%) 
Under-replicated blocks: 0 (0.0%) 
Mis-replicated blocks: 0 (0.0%) 
Default replication factor: 1 
Average block replication: 1.0 





Corrupt blocks: 0 
Missing replicas: 0 (0.0%) 
Number of data-nodes: 1 

Number of racks: 
The filesystem under path'/user/admin/In/hello.txt'is HEALTHY 


一 


从 以 上 输出 








ph 可 以 看 到 : 
DataNode 。fsck 的 选项 如 下 : 


文件 hello.txt 由 一 个 块 组 成 ， 并 且 命令 也 返回 了 它 所 在 的 





























-files， 显 示 文件 的 文件 名 称 、 大 小 、 块 数量 及 是 否 可 用 (是 否 存在 丢失 的 块 ); 

















-blocks， 显 示 每 个 块 在 文件 中 的 信息 ， 一 个 块 用 一 行 显示 ; 











-racks， 展 示 了 每 个 块 所 处 的 机 架 位 置 及 DataNode 的 位 置 。 


运行 fsck 命 令 ， 如 果 不 加 选项 ， 则 执行 以 上 所 有 指令 。 


4.DataNode 块 扫描 任务 


每 个 DataNode 都 会 执行 一 个 块 扫描 任务 ， 它 会 周期 性 地 验证 它 所 存储 的 块 ， 这 就 允许 有 


问题 的 块 能 够 在 客户 端 读 
个 一 个 地 扫描 这 些 块 ， 寺 


进行 块 验证 的 周期 可 





取 时 被 删除 或 修整 。DataBlockScanner 可 维护 一 个 块 列 表 ， 它 会 一 
进行 校 验 和 验证 。 


[以 通过 dfs.DataNode.scan.period.hours 属 性 值 来 设 定 ， 默 认为 504 小 


时 ， 即 3 周 。 出 现 问题 的 块 将 会 被 报告 给 NameNode 进 行 处 理 。 


也 可 以 通过 访问 DataNode 的 Web 接 口 获得 块 验证 的 信息 : http: /datanodeIP : 
50075/block ScannerReport。 下 面 是 一 个 报告 的 样本 。 


Total Blocks: 32 


Verified 
Verified 
Verified 
Verified 
Verified 


in 
in 
in 
in 
in 


last 
last 
last 
last 


hour: 1 

day: 1 

week: 12 

four weeks: 31 


SCAN_PERIOD: 31 
Not yet verified: 1 


Verified since restart: 2 

Scans since restart: 2 

Scan errors since restart: 0 
Transient scan errors: 0 

Current scan rate limit KBps: 1024 
Progress this period: 8% 

Time left in cur period: 99.96% 


人 


通过 附加 后 缀 listblocks (http: //datanodeIP: 50075/blockScannerReport?listblocks) ， 报 告 
会 在 前 面 这 个 DataNode 中 加 入 所 有 块 的 最 新 验证 状态 信息 。 





5. 均 衡器 (balancer) 


由 于 HDFS 不 间断 地 运行 ， 隔 一 段 时 间 可 能 就 会 出 现 文件 在 集群 中 分 布 不 均匀 的 情况 。 





























一 个 不 平衡 的 集群 会 影响 系统 资源 的 充分 利用 ， 所 以 我 们 要 想 办 法 避免 这 种 情况 。 





balancer 程 序 是 Hadoop 的 守护 进程 ， 它 会 
率 的 DataNode 上， 即 进行 文件 
块 副本 分 配 策略 。balancer 的 目 









































块 的 重新 分 布 ， 以 达到 集群 的 


通过 将 文件 块 从 高 负载 的 DataNode 转 移 到 低 使 


F 衡 。 同 时 还 要 考虑 HDFS 的 





的 是 使 集群 达到 相对 平衡 ， 这 里 


i 





的 相对 平衡 是 指 每 个 





























DataNode 的 磁盘 使 用 率 和 整个 集群 的 资源 使 用 率 的 差 值 小 于 给 定 的 阀 值 。 我 们 可 以 通过 这 样 
的 命令 运行 balancer 程 序 : start- 


alancersh。-threshold 参 数 设 定 了 多 个 可 以 接受 的 集群 平衡 














点 。 超 过 这 个 平衡 预 置 就 要 进行 平衡 调整 ， 对 文件 块 进行 
下 为 10%， 当 然 也 可 通过 命令 行 设置 。balancer 被 设计 为 运行 于 集群 后 台中 ， 不 会 增加 集群 
运行 负担 。 我 们 可 以 通过 参数 设置 来 限制 balancer 在 执行 DataNode 之 间 的 数据 转移 时 占用 的 














带宽 资源 。 这 个 属性 值 可 以 通过 hdfs-site.xm] 配 置 文件 中 的 dfs.ba 


进行 修改 ， 默 认为 IMB。 


分 布 。 这 个 参数 值 在 大 多 数 情况 
































ance.bandwidthPerSec 属 性 


10.3 


10.3.1 


当 NameNode 启 动 时 ， 要 做 的 第 一 件 事情 就 是 将 映像 文件 fsimage 加 载 到 内 存 ， 并 应 


edits 文 件 记录 编辑 日 志 。 一 旦 成 功 重 构 和 之 前 文件 系统 一 致 且 居 于 内 存 的 文件 系统 元 数据 ， 





Hadoop 集 群 的 维护 





安全 模式 






































NameNode 就 会 创建 一 个 新 的 fsimage 文 件 〈 这 样 就 可 以 更 高 效 地 记录 检查 点 ， 而 不 用 依赖 于 


Secondary NameNode) 和 一 个 空 的 编辑 日 志文 件 。 只 有 全 部 完成 了 这 些 了 


才 会 监听 RPC 和 HTTP 请 求 。 然 而， 如 果 NameNode 运 行 于 安全 模式 下 ， 那 么 文件 系统 只 能 对 





客户 端 提供 只 读 模式 的 视图 。 





[ 作 ，NameNode 


文件 块 的 位 置信 息 并 没有 持久 化 地 存储 在 NameNode 中 ， 这 些 信息 都 存储 在 各 DataNode 











中 。 在 文件 系统 的 常规 操作 期 间 ，NameNode 会 在 内 存 中 存储 一 个 块 位 置 的 映射 








。 在 安全 模 


式 下 ， 需 要 留 给 DataNode 一 定 的 时 间 向 NameNode 上 传 它们 存储 块 的 列表 ， 这 样 NameNode 
才能 获得 充足 的 块 位 置信 息 ， 才 会 使 文件 系统 更 加 高 效 。 如 果 NameNode 没 有 足够 的 时 间 来 
等 待 获取 这 些 信 息 ， 那 么 它 就 会 认为 该 块 没有 足够 的 副本 ， 进 而 安排 其 他 DataNode 复 制 。 这 
在 很 多 情况 下 显然 是 没有 必要 的 ， 还 浪费 系统 资源 。 在 安全 模式 下 ，NameNode 不 会 处 理 任 
何 块 复制 和 删除 指令 。 


当 最 小 副本 条 件 达到 要 求 时 ， 系 统 就 会 退出 安全 模式 ， 这 需要 延期 30 秒 〈 这 个 时 间 由 

















dfs.safe-mode.extension 属 性 值 确 定 ， 默 认为 30， 一 些小 的 集群 〈 比 如 只 有 10 个 节点 ) ， 可 以 
设置 该 属性 值 为 0) 。 这 里 所 说 的 最 小 副本 条 件 是 指 系统 中 99.9% 〈 这 个 值 由 
dfs.safemode.threshold.pct 属 性 确定 ， 默 认为 0.999) 的 文件 块 达 到 dfs.replication.min 属 性 值 所 
设置 的 副本 数 〈 默 认为 1) 。 


lk 


文件 块 。 











格式 化 一 个 新 的 HDFS 时 ，NameNode 不 会 进入 安全 模式 ， 因 为 此 时 系统 











以 下 命令 可 以 查看 NameNode 是 否 已 进入 安全 模式 : 











bh 还 没有 任何 


Re 
hadoop dfsadmin-safemode get 
Safe mode is ON 


OOOO 
在 有 些 情况 下 ， 需 要 在 等 待 NameNode 退 出 安全 模式 时 执行 一 些 命令 ， 这 时 我 们 可 以 使 
以 下 命令 : 




















> 
hadoop dfsadmin-safemode wait 
#command to read or write a file 


OO 
作为 管理 员 ， 也 应 掌握 使 NameNode 进 入 或 退出 安全 模式 的 方法 ， 这 些 操作 有 时 也 是 必 
需 的 ， 比 如 在 升级 完 集群 后 需要 确认 数据 是 否 仍 然 可 读 等 。 这 时 我 们 可 以 使 用 以 下 命令 : 























i 
hadoop dfsadmin-safemode enter 
Safe mode is ON 


ee | 








当 NameNode 仍 处 于 安全 模式 时 ， 也 可 以 使 用 以 上 命令 以 保证 NameNode 没 有 退出 安全 
模式 。 要 使 系统 退出 安全 模式 可 执行 以 下 命令 : 











aa 
hadoop dfsadmin-safemode leave 
Safe mode is OFF 


E | 


10.3.2 ”Hadoop 的 备份 


1. 元 数据 的 备份 


如 果 NameNode 中 存储 的 持久 化 元 数据 信息 丢失 或 遭 到 破坏 ， 那 么 整个 文件 系统 就 不 可 


























周 .……) 以 避免 突然 宕 机 带 来 的 破坏 。 


了 。 因 此 元 数据 的 备份 至 关 重 要 ， 需 要 备份 不 同时 期 的 元 数据 信息 (1 小 时 、1 天 、1 


备份 的 一 个 最 直接 的 办 法 就 是 编写 一 个 脚本 程序 ， 然 后 周期 性 地 将 Secondary 
NameNode 中 previous.checkpoint 子 目录 (该 目录 由 fs.checkpoint.dir 属 性 值 确定 〉 下 的 文件 归 
档 到 另外 的 机 器 上 。 该 脚本 需要 额外 验证 所 复制 的 备份 文件 的 完整 性 。 这 个 验证 可 以 通过 在 
NameNode 的 守护 进程 中 运行 一 个 验证 程序 来 实现 ， 验 证 其 是 否 成 功 地 从 内 存 中 读 取 了 








fsimage 及 edits 文 件 。 





2. 数 据 的 备份 








HDFS 的 设计 目标 之 一 就 是 能 够 可 靠 地 在 分 布 式 集群 中 储存 数据 。HDFS 允 许 数据 丢失 的 
发 生 ， 所 以 数据 的 备份 就 显得 至 关 重 要 了 。 由 于 Hadoop 可 以 存储 大 规模 的 数据 ， 备 份 哪些 数 
据 、 备 份 到 哪里 就 成 为 一 个 关键 。 在 备份 过 程 中 ， 最 优先 备份 的 应 该 是 那些 不 能 再 生 的 数据 
和 对 商业 应 用 最 关键 的 数据 。 而 对 于 那些 可 以 通过 其 他 手段 再 生 的 数据 或 对 于 商业 应 用 价值 









































不 是 很 大 的 数据 ， 可 以 考虑 不 进行 备份 。 









































这 里 需要 强调 的 是 ， 不 要 认为 HDFS 的 副本 机 制 可 以 代替 数据 的 备份 。HDFS 中 的 Bug 也 
会 导致 副本 丢失 ， 同 样 硬件 也 会 出 现 故 障 。 尽 管 Hadoop 可 以 承受 集群 中 廉价 商用 机 器 故障 ， 
但 是 有 些 极端 情况 不 能 排除 在 外 ， 特 别 是 系统 有 时 还 会 出 现 软件 Bug 和 人 为 失误 的 情况 。 

































































通常 Hadoop 会 设置 用 户 目录 的 策略 ， 比 如 ， 每 个 用 户 都 有 一 个 空间 配额 ， 每 天 晚上 都 可 

















户 ， 以 避免 客户 反映 问题 。 





进行 备份 工作 。 但 是 不 管 设置 什么 样 的 策略 ， 都 需要 通知 


前 面 介 绍 的 distcp 工 具 〈 参 见 第 9 章 HDFS 详 解 ) 是 在 不 








同 HDFS 之 间或 不 同 Hadoop 文 件 系 


统 之 间 转 在 和 备份 数据 的 好 








R, 





Kl 








为 distcp 可 以 并 





10.3.3 Hadoop 的 节点 管理 


作为 Hadoop 集 群 的 管理 员 ， 可 能 随时 都 要 处 理 增加 和 撤销 机 器 节点 的 任务 。 例 如 ， 要 增 
加 集群 的 存储 容量 ， 就 要 增加 新 的 节点 。 相 反 ， 要 缩小 集群 的 规模 ， 就 需要 撤销 已 存在 的 节 
点 。 如 果 一 个 节点 频繁 地 发 生 故 障 或 运行 缓慢 ， 那 么 也 要 考虑 撤销 已 存在 的 节点 。 节 点 一 般 
承担 DataNode 和 TaskKTracler 的 任务 ，Hadoop 支 持 对 它们 的 添加 和 撤销 。 





= 








1. 添 加 新 的 节点 

















在 第 2 章 ， 我 们 介绍 了 如 何 部 署 Hadoop 集 群 ， 可 以 看 到 添加 一 个 新 的 节点 虽然 只 用 配置 
hdfs-site ,xml 文件 和 mapred-site.xml 文 件 ， 但 最 好 还 是 配置 一 个 授权 节点 列表 。 


如 果 人 允许 任何 机 器 都 可 以 连接 到 NameNode 上 并 充当 DataNode， 这 是 存在 安全 隐患 的 ， 
因为 这 样 的 机 器 可 能 能 够 获得 未 授权 文件 的 访问 权限 。 此 外 这 样 的 机 器 并 不 是 真正 的 
DataNode， 但 它 可 以 存储 数据 ， 却 又 不 在 集群 的 控制 之 下 ， 并 且 任何 时 候 都 有 可 能 停止 运 
行 ， 从 而 造成 数据 丢失 。 由 于 配置 简单 或 存在 配置 错误 ， 即 使 在 防火 墙 内 这 样 的 处 理 也 可 能 
存在 风险 ， 因 此 在 集群 中 也 要 对 DataNode 进 行 明 确 的 管理 。 




















在 dfs.hosts 文 件 中 指定 可 以 连接 到 NameNode 的 DataNode 列 表 。dfs.hosts 文 件 存储 在 











NameNode 的 本 地 文件 系统 上 ， 包 含 每 个 DataNode 的 网 络 地 址 ， 一 行 表 示 一 个 DataNode。 要 
为 一 个 DataNode 设 置 多 个 网 络 地 址 ， 把 它们 写 到 一 行 中 ， 中 间 用 空格 分 开 。 类 似 的 ， 

TaskTracker 是 在 mapred.hosts 中 设置 的 。 一 般 来 说 ，DataNode 和 TaskTracker 列 表 都 存在 一 个 
共享 文件 ， 名 为 include file 。 该 文件 被 dfs.hosts 及 mapred.hosts 两 者 引用 ， 因 为 在 大 多 数 情况 

































































下 ， 和 集群 中 的 机 器 会 同时 运行 DataNode 及 TaskTracker 守 护 进程 。 








需要 注意 的 是 ，dfs.hosts 和 mapred.hosts 这 两 个 文件 与 slaves 文 件 不 同 ，slaves 文 件 被 
Hadoop 的 执行 脚本 用 于 执行 集群 范围 的 操作 ， 例 如 集群 的 重启 等 ， 但 它 从 来 不 会 被 Hadoop 
的 守护 进程 使 


















































要 向 集群 添加 新 的 节点 ， 需 要 执行 以 下 步 又 : 





1) 向 include 文 件 中 添加 新 节点 的 网 络 地 址 ; 














2) 使 用 以 下 命令 更 新 NameNode 中 具有 连接 权限 的 DataNode 集 合 : 














| 
hadoop dfsadmin-refreshNodes 
TTT $F —eRFTO— oo 




















3) 更 新 带 有 新 节点 的 slaves 文 件 ， 以 便 Hadoop 控 制 脚本 在 执行 后 续 操作 时 可 以 使 用 更 新 
后 的 slaves 文 件 中 的 所 有 节点 ; 





4) 启动 新 的 数据 节点 ; 


5) 重新 启动 MapReduce 集 群 ; 























6) 检查 网 页 用 户 界面 是 否 有 新 的 DataNode 和 TaskTracker。 


需要 注意 的 是 ，HDFS 不 会 自动 将 旧 DataNode 上 的 数据 转移 到 新 的 DataNode 中 ， 但 我 们 
可 以 运行 平衡 器 命令 进行 集群 均衡 。 











2. 撤 销 节点 


撤销 数据 节点 时 要 避免 数据 的 丢失 。 在 撤销 前 ， 需 先 通知 NameNode 要 撤销 的 节点 ， 然 
后 在 撤销 此 节点 前 将 上 面 的 数据 块 转移 出 去 。 而 如 果 关 闭 了 正在 运行 的 TaskTracker， 那 么 
JobTracker 会 意识 到 错误 并 将 任务 分 配 到 其 他 TaskTracker 中 去 。 























撤销 节点 过 程 由 exclude 文 件 控制 : 对 于 HDFS 来 说 ， 可 以 通过 dfs.hosts.exclude 属 性 来 控 
制 ， 对 于 MapReduce 来 说 ， 可 以 由 mapred.hosts.exclude 来 设置 。 











TaskTracker 是 否 可 以 连接 到 JobTracker， 其 规则 很 简单 ， 只 要 include 文 件 中 包含 且 
exclude 中 不 包含 这 个 TaskTracker， 这 样 TaskTracker 就 可 以 连接 到 JobTracker 来 执行 任务 。 没 
有 定义 的 或 空 的 include 文 件 意味 着 所 有 节点 都 在 include 文 件 中 。 











对 于 HDFS 来 说 规则 有 些许 不 同 ， 表 10-3 总 结 了 include 和 exclude 存 放 节点 的 情况 。 对 于 
TaskTracker 来 说 ， 一 个 未 定义 的 或 空 的 include 文 件 意味 着 所 有 的 节点 都 包含 其 中 。 














表 10-3 HDFS 的 include 和 exclude 的 文件 优先 级 


include 文件 中 包含 





E # 
节点 可 以 连接 
连接 

以 连接 

连接 和 撤销 





exclude 文件 中 包含 


























要 想 从 集群 中 撤销 节点 ， 需 要 执行 以 下 步 又 ; 











1) 将 需要 撤销 的 节点 的 网 络 地 址 增加 到 exculde 文 件 中 ， 注 意 ， 不 要 在 此 时 更 新 mclude 
文件 ; 





2) 


he 


重新 启动 MapReduce 集 群 来 终止 已 撤销 节点 的 TaskTracker; 














3) 用 以 下 命令 更 新 具有 新 的 许可 DataNode 节 点 集 的 NameNode: 
a 


hadoop dfsadmin-refreshNodes 


= 

















4) 进入 网 络 用 户 界 面 ， 先 检查 已 撤销 的 DataNode 的 管理 状态 是 否 变 为 “DecommissionIn 
Progress”"， 然 后 把 数据 块 复制 到 集群 的 其 他 DataNode 中 ; 
































5) 当 所 有 DataNode 报 告 其 状态 为 “Decommissioned* 时 ， 所 有 数据 块 也 都 会 被 复制 ， 此 
时 可 以 关闭 已 撤销 的 节点 ; 





6) 从 include 中 删除 节点 网 络 地 址 ， 然 后 再 次 运行 命令 : 
Eee 


hadoop dfsadmin-refreshNodes 


= 
7) 从 slaves 文 件 中 删除 节点 。 





10.3.4 系统 升级 


升级 HDFS 和 MapReduce 集 群 需要 一 个 合理 的 操作 步骤 ， 这 里 我 们 主要 讲解 HDFS 的 升 
级 。 如 果 文 件 系 统 升级 后 文件 格局 发 生 了 变化 ， 那 么 升级 时 会 将 文件 系统 的 数据 和 元 数据 迁 
移 到 与 新 版 本 一 致 的 格式 上 。 由 于 任何 涉及 数据 迁移 的 操作 都 会 导致 数据 的 丢失 ， 所 以 必须 
保证 数据 和 元 数据 都 有 备份 (具体 操作 参看 10.3.2 节 ) 。 在 进行 升级 时 ， 可 以 先 在 小 型 集群 
中 进行 测试 ， 以 便 正式 运行 时 可 以 解决 所 有 问题 。 






































Hadoop 对 自身 的 兼容 性 要 求 非常 高 ， 所 有 Hadoop 1.0 之 前 版 本 的 兼容 性 要 求 最 严格 ， 只 
有 来 自 相同 发 布 版 本 的 组 件 才能 保证 相互 的 兼容 性 ， 这 就 意味 着 整个 系统 从 守护 进程 到 客户 
端 都 要 同时 更 新 ， 还 需要 集群 停机 一 段 时 间 。 后 期 发 布 的 版 本 支持 回 滚 升级 ， 允 许 集群 守护 
进程 分 阶段 升级 ， 以 便 在 更 新 期 间 可 以 运行 客户 端 。 


















































如 果 文 件 系统 的 布局 不 改变 ， 那 么 集群 升级 就 非常 简单 了 。 首 先 在 集群 中 安装 新 的 
HDFS 和 MapRedude (同时 在 客户 端 也 要 安装 ) ， 然 后 关闭 旧 的 守护 进程 ， 升 级 配置 文件 ， 
启动 新 的 守护 进程 和 客户 端 更 新 库 。 这 个 过 程 是 可 逆 的 ， 因 此 升级 后 的 版 本 回 滚 到 之 前 版 本 
也 很 简单 。 


























每 次 成 功 升级 后 都 要 执行 一 系列 的 清除 步骤: 


1) 从 集群 上 删除 旧 的 安装 和 配置 文件 ; 





2) 修复 代码 和 配置 中 的 每 个 错误 警告 。 





以 上 讲解 的 系统 升级 非常 简单 ， 但 是 如 果 需 要 升级 文件 系统 ， 就 需要 更 进一步 的 操作 。 














如 果 使 用 以 上 讲解 方法 进行 升级 ， 并 且 HDFS 是 一 个 不 同 的 布局 版 本 ， 那 么 NameNode 就 
不 会 正常 运行 。NameNode 的 日 志 会 产生 以 下 信息 : 


[ee | 
File system image contains an old layout version-15. 
An upgrade to version-18 is required. 

















Please restart NameNode with-upgrade option. 


jl OOS: | 


要 想 确定 是 否 需 要 升级 文件 系统 ， 最 好 的 办 法 就 是 在 一 个 小 集群 上 进行 测试 。 





HDFS 升 级 将 复制 以 前 版 本 的 元 数据 和 数据 。 升 级 并 不 需要 两 倍 的 集群 存储 空间 ， 因 为 



































DataNode 使 用 硬 链接 来 保留 对 同一 个 数据 块 的 两 个 引用 ， 这 样 就 可 以 在 需要 的 时 候 轻松 实现 











本 深 到 以 前 版 本 的 文件 系统 。 














需要 注意 的 是 ， 升 级 后 只 能 保留 前 一 个 版 本 的 文件 系统 ， 而 不 能 回 滚 到 多 个 文 














the upgrade) 。 一 旦 更 新 被 确定 ， 那 HDFS 就 不 会 回 深 到 以 前 的 版 本 了 。 





需要 说 明 的 是 ， 只 有 可 以 正常 运作 的 健康 的 系统 才能 被 正确 升级 。 在 进行 升级 
须 进 行 一 个 全 面 的 fsck 操 作 。 为 防止 意外 ， 可 以 将 系统 中 的 所 有 文件 及 块 的 列表 (f 
出 ) 进行 备份 。 这 样 就 可 以 在 升级 后 将 运行 的 输出 与 之 对 比 ， 检 测 是 否 全 部 正确 升 
有 数据 丢失 。 














还 需要 注意 ， 在 升级 之 前 要 删除 临时 文件 ， 包 括 HDFS 上 MapReduce 系 统 目录 
和 本 地 临时 文件 。 


完成 以 上 这 些 工 作 后 就 可 以 进行 集群 的 升级 和 文件 系统 的 迁移 了 ， 有 具体 步骤 如 








1) 确保 之 前 的 升级 操作 全 部 完成 ， 不 会 影响 此 次 升级 ; 
2) 关闭 MapReduce， 终 止 TaskTracker 上 的 所 有 任务 进程 ; 


3) 关闭 HDFS 并 备份 NameNode 目 录 ; 





4) 在 集群 和 客户 端 上 安装 新 版 本 的 Hadoop HDFS 和 同步 的 MapReduce; 














5) 使 用 -upgrade 选 项 启动 HDFS; 








件 系统 ， 


因此 执行 另 一 个 对 HDFS 的 升级 需要 删除 以 前 的 版 本 ， 这 个 过 程 被 称 为 确定 更 新 〈finalizing 


之 前 ， 必 
sck 的 输 
级 ， 有 没 


的 文件 


下 : 


6 


二 


等 待 操作 完成 ; 


7) 在 HDFS 上 进行 健康 检查 ; 


8 


2 


启动 MapReduce; 


9 


VS 


回 深 或 确定 升级 。 





在 运行 升级 程序 时 ， 最 好 能 从 PATH 环境 变量 中 删除 Hadoop 脚 本 ， 这 样 可 以 避免 运行 不 
确定 版 本 的 脚本 程序 。 在 安装 目录 定义 两 个 环境 变量 是 很 方便 的 ， 在 以 下 指令 中 已 经 定义 了 
OLD_HADOOP_INSTALL 和 NEW_HADOOP INSTALL。 在 以 上 步骤 5S) 中 我 们 要 运行 以 下 
指令 : 














TM | 
SNEW_HADOOP_INSTALL/bin/start-dfs.sh-upgrade 
一 


NameNode 升 级 它 的 元 数据 ， 并 将 以 前 的 版 本 放 入 新 建 的 目录 previous 中 : 








et 
${dfs.name.dir}/current/VERSION 
/edits 
/fsimage 
/fstime 
/previous/VERSION 
/edits 
/fsimage 
/fstime 


ct 

















采用 类 似 的 方式 ，DataNode 升 级 它 的 存储 目录 ， 将 旧 的 目录 复制 到 previous 目 录 中 去 。 

















‘at 








升级 过 程 需要 一 段 时 间 才能 完成 。 可 以 使 用 dfsadmin 命 令 来 检查 升级 的 进度 。 升 级 的 
件 同 样 会 记录 在 守护 进程 的 日 志文 件 中。 在 步 又 6) 中 执行 以 下 命令 : 











ee 
SNEW_HADOOP_INSTALL/bin/hadoop dfsadmin-upgradeProgress 
status 
Upgrade for version-18 has been completed. 
Upgrade is not finalized. 


M] 

以 上 代码 表明 升级 已 经 完成 。 在 这 个 阶段 必须 在 文件 系统 上 进行 一 些 健康 检查 〈 即 步骤 
7) ， 比 如 使 用 fsck 井 行文 件 和 块 的 检查 ) 。 当 进行 检查 〈 只 读 模式 ) 时 ， 可 以 让 HDFS 进 入 
安全 模式 ， 以 防止 其 他 检查 对 文件 进行 更 改 。 


























DUO) 是 可 选 操作 ， 如 果 在 升级 后 发 现 问题 ， 则 可 以 回 滚 到 之 前 版 本 。 








首先 ， 关 闭 新 的 守护 进程 ; 
| | 


$NEW_HADOOP_INSTALL/bin/stop-dfs.sh 


es | 
然后 ， 用 -rollback 选 项 启动 旧版 本 的 HDFS: 
| i | 


$OLD_HADOOP_INSTALL/bin/start-dfs.sh-rollback 


| 
这 个 命令 会 使 用 NameNode 和 DataNode 以 前 的 副本 蔡 换 它们 当前 存储 目录 下 的 内 容 ， 
件 系统 立即 返回 原始 状态 。 









































如 果 对 新 升级 的 版 本 感到 满意 ， 那 么 可 以 执行 确定 升级 〈 即 步 又 9) ， 可 选 ) ， 并 删除 
以 前 的 存储 目录 。 需 要 注意 的 是 在 升级 确定 后 ， 就 不 能 回 滚 到 之 前 的 版 本 了 。 





需要 执行 以 下 步 又， 才能 进行 另 一 次 升级 : 
uul 


SNEW_HADOOP_INSTALL/bin/hadoop dfsadmin-fnalizeUpgrade 

SNEW_HADOOP_INSTALL/bin/hadoop dfsadmin-upgradeProgress 
status 

There are no upgrades in progress. 


Eee 
至 此 ，HDFS 升 级 到 了 最 新 版 本 。 


10.4 ”本章 小 结 
本 章 重点 介绍 了 Hadoop 监 控 和 管理 方面 的 相关 内 容 。 


首先 ， 从 HDFS 文 件 结构 开始 进行 相关 介绍 。HDFS 作 为 Hadoop 的 核心 分 布 式 文件 系统 ， 
其 许多 应 用 都 构建 在 其 核心 分 布 式 文件 系统 上 。 对 于 作为 基础 架构 的 核心 分 布 式 文件 系统 ， 
管理 员 要 给 予 更 多 的 关注 。 












































其 次 ， 本 章 从 整体 上 对 Hadoop 的 监控 机 制 和 相关 的 监控 工具 进行 了 分 析 ， 着 重 分 析 了 
Hadoop 监 控 的 支持 基础 、 日 志和 度量 ， 同 时 提出 了 诸多 系统 监控 的 解决 方案 ， 并 着 重 介绍 了 
Ganglia 监 控 软 件 。 





























最 后 ， 本 章 对 实际 应 用 中 经 常 遇 到 的 维护 要 求 ， 比 如 增删 节点 、 数 据 备份 、 系 统 升级 等 
进行 了 介绍 。 
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第 11 章 ”Hive 详 解 























Hive 是 Hadoop 中 的 一 个 重要 子 项 目 ， 它 利用 的 是 MapReduce 编 程 技 术 ， 实 现 了 
语句 ， 提 供 了 类 SQL 的 编程 接口 。Hive 的 出 现 极 大 地 推进 了 Hadoop 在 数据 仓库 方面 














事实 上 ， 目 前 业界 仍 在 对 何谓 大 规模 数据 分 析 最 佳 方法 进行 着 辩论 。 由 于 传统 应 
界 保守 派 依然 青睐 于 关系 型 数据 库 和 SQL 语言 。 而 在 学 术 界 ， 互 联网 阵营 则 更 集中 于 支持 





























部 分 SQL 
的 发 展 。 
的 惯性 ， 

















MapReduce 的 开发 模式 。 本 章 我 们 将 对 基于 Hive 的 数据 仓库 解决 方案 进行 介绍 。 


Ll 


Hive 是 一 个 基 了 


功能 : 数据 ETL Gi 


Hive 简 介 


FHadoop 文 件 系统 之 上 的 数据 仓库 架构 。 它 为 数据 仓库 的 管理 提供 了 许多 
取 、 转 换 和 加 载 ) 工具 、 数 据 存储 管理 和 大 型 数据 集 的 查询 和 分 析 能 














力 。 同 时 Hive 定 义 了 类 SQL 的 语言 一 Hive QL. Hive QL 人 允许 用 户 进行 和 SQL 相似 的 操作 ， 还 
允许 开发 人 员 方 便 地 使 用 Mapper 和 Reducer 操 作 ， 这 对 MapReduce 框 架 是 一 个 强 有 力 的 支 


持 。 


由 于 Hadoop 是 



































Lt 量 处 理 系统 ， 任 务 是 高 延迟 性 的 ， 在 任务 提交 和 处 理 过 程 中 会 消耗 一 些 





时 间 成 本 。 同 样 ， 即 使 Hive 处 理 的 数据 集 非常 小 〈 比 如 几 百 MB) ， 在 执行 时 也 会 出 现 延迟 
现象 。 这 样 ，Hive 的 性 能 就 不 可 能 很 好 地 和 传统 的 Oracle 数 据 库 进行 比较 了 。Hive 不 提供 数 
据 排序 和 查询 cache 功 能 ， 不 提供 在 线 事务 处 理 ， 也 不 提供 实时 的 查询 和 记录 级 的 更 新 ， 但 


Hive 能 更 好 地 处 理 不 变 的 大 规模 数据 集 〈 例 如 网 络 日 志 ) 上 的 批量 任务 。 所 以 ，Hive 最 大 的 


价值 是 可 扩展 性 〈 基 于 Hadoop 平 台 ， 可 以 自动 适应 机 器 数目 和 数据 量 的 动态 变化 ) 、 可 延展 






































性 (结合 MapReduce 和 用 户 定义 的 函数 库 ) 、 良 好 的 容错 性 和 低 约束 的 数据 输入 格式 。 





Hive 本 身 建立 在 Hadoop 的 体系 架构 上 ， 提 供 了 一 个 SQL 的 解析 过 程 ， 并 从 外 部 接口 中 获 
取 命 令 ， 以 对 用 户 指令 进行 解析 。Hive 可 将 外 部 命令 解析 成 一 个 Map-Reduce 可 执行 计划 ， 并 


按照 该 计划 4 


示 。 


114.1 


Hive 


























Hive 的 数据 存储 



































上 成 MapReduce 任 务 后 交 给 Hadoop 集 群 进行 处 理 ，Hive 的 体系 结构 如 图 11-1 所 





的 存储 是 建立 在 Hadoop 文 件 系统 之 上 的 。Hive 本 身 没 有 专门 的 数据 存储 格式 ， 也 不 


能 为 数据 建立 索引 ， 因 此 用 户 可 以 非常 自由 地 组 织 Hive 中 的 表 ， 只 需要 在 创建 表 的 时 候 告 ; 


Hive 数 据 中 的 列 分 隔 符 和 行 分 隔 符 就 可 以 解析 数据 了 。 


Hive 中 主要 包含 四 类 数据 模型 : 表 (Table) 、 外 部 表 (External Table) 、 分 

















(Partition) FH} (Bucket) 。 








xl 








Hive 中 的 表 和 数据 库 中 的 表 在 概念 上 是 类 似 的 ， 在 Hive 中 每 个 表 都 有 一 个 对 应 的 存储 目 
录 。 例如， 一 个 表 htable 在 HDFS 中 的 路 径 为 /datawarehouse/htable， 其 中 ，/datawarehouse 是 
在 hive-site.xml 配 置 文件 中 由 ${hive.metastore.warehouse.dir} 指 定 的 数据 仓库 的 目录 ， 所 有 的 
表 数 据 ( 除 了 外 部 表 ) 都 保存 在 这 个 目录 中 。 






































Hive 中 的 每 个 分 区 都 对 应 数据 库 中 相应 分 区 列 的 一 个 索引 ， 但 是 其 分 区 的 组 织 方式 和 传 
统 关系 型 数据 库 不 同 。 在 Hive 中 ， 表 中 的 一 个 分 区 对 应 表 下 的 一 个 目录 ， 所 有 分 区 的 数据 都 
存储 在 对 应 的 目录 中 。 例 如 ，htable 表 中 包含 的 ds 和 city 两 个 分 区 ， 分 别 对 应 两 个 目录 : 对 应 
ds=20100301，city=Beijing 的 HDFS 子 目录 





























为 /datawarehouse/htable/ds=20100301/city=Beijing; 对 应 ds=20100301，city=Shanghai 的 





HDFS 子 目录 为 /datawarehouse/htable/ds=20100301/city=Shanghai。 


命令 行 接口 


驱动 
(iF. EAE 
器 ， 执 行 器 ， 


JehTracker 





图 11-1 Hive 的 体系 结构 


桶 在 对 指定 列 进行 哈 希 (Hash) 计算 时 ， 会 根据 哈 希 值 切 分 数据 ， 使 每 个 桶 对 应 一 个 文 
件 。 例 如 ， 将 属性 列 user 列 分 散 到 32 个 桶 中 ， 先 要 对 user 列 的 值 进行 hash 计 算 ， 对 应 哈 希 值 为 
0 的 桶 写 入 HDFS 的 目录 为 /datawarehouse/htable/ds=20100301/city=Beijing/part-00000; 对 应 哈 





希 值 为 10 的 HDFS 目 录 为 /datawarehouse/htable/ds=20100301/city=Beijing/part-00010， 依 此 类 


外 部 表 指 向 已 经 在 HDFS 中 存在 的 数据 ， 也 可 以 创建 分 区 。 它 和 表 在 元 数据 的 组 织 上 是 
相同 的 ， 而 实际 数据 的 存储 则 存在 较 大 差异 ， 主 要 表现 在 以 下 两 点 上 。 








1) 创建 表 的 操作 包含 两 个 步骤: 表 创 建 过 程 和 数据 加 载 步 又 〈 这 两 个 过 程 可 以 在 同一 
语句 中 完成 ) 。 在 数据 加 载 过 程 中 ， 实 际 数据 会 移动 到 数据 仓库 目录 中 ， 之 后 的 数据 访问 将 
会 直接 在 数据 仓库 目录 中 完成 。 在 删除 表 时 ， 表 中 的 数据 和 元 数据 将 会 被 同时 删除 。 




















2) 外 部 表 的 创建 只 有 一 个 步骤 ， 加 载 数据 和 创建 表 同 时 完成 ， 实 际 数据 存储 在 创建 语 
句 LOCATION 指 定 的 HDFS 路 径 中 ， 并 不 会 移动 到 数据 仓库 目录 中 。 如 果 删 除 一 个 外 部 表 ， 
仅 删 除 元 数据 ， 表 中 的 数据 不 会 被 删除 。 

















11.1.2 再 ve 的 元 数据 存储 








由 于 Hive 的 元 数据 可 能 要 面临 不 断 地 更 新 、 修 改 和 读 取 操 作 ， 所 以 它 显然 不 适合 使 用 
Hadoop 文 件 系 统 进行 存储 。 目 前 Hive 将 元 数据 存储 在 RDBMS 中 ， 比 如 存储 在 MySQL、 
Derby 中 。Hive 有 三 种 模式 可 以 连接 到 Derby 数 据 库 : 

















1) Single User Mode， 利 用 此 模式 连接 到 一 个 In-memory (内 存 ) 数据 库 Derby ， 一 和 
于 单元 测试 ; 



































2) Multi User Mode， 通 过 网 络 连接 到 一 个 数据 库 中 ， 是 最 常 使 用 的 模式 ; 





























3) Remote Server Mode， 用 于 非 Java 客 户 端 访问 元 数据 库 ， 在 服务 器 端 启 动 一 个 
MetaStoreServer， 在 客户 端 利用 Thrift 协 议 通 过 MetaStoreServer 访 问 元 数据 库 。 





























关于 Hive 元 数据 的 使 用 配置 ， 我 们 将 在 11.5 节 “Hive 的 JDBC 接 口中 进行 详细 介绍 。 




















11.2 ”Hive 的 基本 操作 


本 节 中 我 们 将 介绍 Hive 的 基本 操作 ， 包 括 Hive 在 集群 上 的 安装 配置 及 Hive 的 Web UI 的 使 


























11.2.1 在 集群 上 安装 Hive 























从 图 11-1 中 可 以 看 出 ，Hive 可 以 理解 为 在 Hadoop 和 HDFS 之 上 为 用 户 封装 一 层 便于 用 户 
使 用 的 接口 ， 该 接口 有 丰富 的 样式 ， 包 括 命令 终端 、Web UI 及 JDBC/ODBC 等 。 因 此 Hive 的 
安装 需要 依赖 Hadoop。 下 面 我 们 有 具体 介绍 如 何 下 载 、 安 装 和 配置 Hive 。 















































(1) 先决 条 件 


要 求 必 须 已 经 安装 完成 Hadoop， 当 前 最 新 版 本 为 1.0.1。Hadoop 的 安装 我 们 已 经 在 前 面 
节 中 详细 讲 过 (参见 第 2 章 “Hadoop 的 安装 与 配置 ") ， 这 里 不 再 袭 述 。 


ak 





(2) 下 载 Hive 安 装 包 


当前 Hive 的 最 新 版 本 为 0.8.1， 读 者 可 通过 以 下 命令 下 载 Hive 安 装 包 : 
Eee 


wget http: //labs.renren.com/apache-mirror/hive/hive- 
0.8.1/hive-0.8.1.tar.gz 

tar xzf hive-0.8.1.tar.gz 

cd hive-0.8.1 


= 
或 者 到 Hive 官 方 网 站 选择 一 个 服务 器 镜像 (http: //www.apache.org/dyn/closer.cgi/hive ) 
及 相应 的 版 本 进行 下 载 。 


(3) 配置 系统 环境 变量 /etc/profile 或 一 /bashrc 


该 步 又 只 是 为 了 便于 大 家 操作 ， 对 于 Hive 的 安装 并 不 是 必须 的 。 


如 下 所 示 ， 在 PATH 中 加 入 Hive 的 bin 及 conf 路 径 : 





| 
#Config Hive 
export HIVE _HOME=/home/hadoop/hadoop-1.0.1/hive-0.8.1 
export PATH=$HIVE_HOME/bin: $HIVE_HOME/conf: $PATH 


TTT | 


在 当前 终端 输入 “source/etc/profile” 使 环境 变量 对 当前 终端 有 效 。 


(4) 修改 Hive 配 置 文档 














若 不 进行 修改 ，Hive 将 使 用 默认 的 配置 文档 。 一 些 高 级 用 户 希望 对 其 进行 配置 。 
SHIVE_HOME/conf 对 应 的 是 Hive 的 配置 文档 路 径 。 该 路 径 下 的 SHIVE_HOME/conf/hive- 
site.xm1 对 应 的 是 Hive 工 程 的 配置 文档 ， 默 认 该 配置 文档 并 不 存在 ， 需 要 我 们 手动 创建 。 如 下 
所 示 : 
































[= | 
cd$HIVE_HOME/conf 
cp hive-default.xml.template hive-site.xml 
+ 





hive-default. xmltemplate 为 系统 提供 给 的 配置 文档 模板 ， 其 中 填写 的 是 默认 的 配置 参 
数 。Hive 的 主要 配置 项 如 下 : 





hive. metastore.warehouse.dir， 该 参数 指定 的 是 Hive 的 数据 存储 目录 ， 指 定 的 是 HDFS 上 
的 位 置 ， 默 认 值 为 /user/hive/warehouse。 


hive. exec.scratchdir， 该 参数 指定 的 是 Hive 的 数据 临时 文件 目录 ， 默 认 位 置 为 /mpmhive- 
${username}. 

连接 数据 库 配 置 。 

在 11.1.2 节 中 已 经 讲 过 ，Hive 需 要 将 元 数据 存储 在 RDBMS 中 ， 这 对 于 Hive 的 运行 是 非常 
重要 的 。 在 默认 情况 下 ，Hive 已 经 为 我 们 配置 好 了 Derby 数据库 的 连接 参数 ， 并 且 集 成 了 
Derby 数据库 及 连接 驱动 jar 包 。 下 面 为 连接 Derby 数据库 的 关键 配置 : 














p 

<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl"href="configuration.xs1l"?> 

<configuration> 

<property> 

<name>javax.jdo.option.ConnectionURL</name> 

<value>jdbc: derby: ; databaseName=metastore db; create=true 
</value> 

<description>JDBC connect string for a JDBC metastore 
</description> 

</property> 

<property> 

<name>javax.jdo.option.ConnectionDriverName</name> 

<value>org.apache.derby.jdbc.EmbeddedDriver</value> 

<description>Driver class name for a JDBC metastore 
</description> 

</property> 

<property> 

<name>javax.jdo.option.ConnectionUserName</name> 

<value>APP</value> 

<description>username to use against metastore database 
</description> 

</property> 

<property> 

<name>javax.jdo.option.ConnectionPassword</name> 

<value>mine</value> 

<description>password to use against metastore database 
</description> 

</property> 


</configuration> 


[ee | 














其 中 “javax:jdo.option.ConnectionURL” 参 数 指定 的 是 Hive 连 接 数 据 库 的 连接 字符 

串 , “javax.jdo.option.ConnectionDriverName” 参 数 指定 的 是 驱动 的 类 入 口 名 

称 ，“javax.jdo.option.ConnectionUserName” 参 数 和 “javax.jdo.option.ConnectionPassword” 参 
数 指定 的 是 数据 库 的 用 户 名 和 密码 。 使 用 Derby 数据 库 需 要 确定 在 SHIVE_HOME/lib/ 目 录 下 
有 Derby 的 数据 库 驱 动 。Hive0.8.1 在 默认 情况 下 为 我 们 提供 了 该 驱动 包 : derby-10.4.2.0jar。 






































(5) 运行 Hive 


在 上 述 配置 完成 后 ， 直 接 运 行 SHIVE_HOMEmbinhive 即 可 启动 连接 Hive， 如 下 所 示 : 


一 


./bin/hive 


Logging initialized using configuration in jar 


file: /home/hadoop/hadoop-1 
0.8.1/lib/hive-common-0 
Hive history 


-0.1/hive- 
.8.1.jar! /hive-log4j.properties 


file=/tmp/hadoop/hive_job_log_hadoop_201205151824 37118280.txt 


hive> 


一 











该 方式 使 用 的 是 命令 行 的 方式 Ce 











ommand line, cli) 连接 Hive 进 行 操 作 。 





另外 ，Hive 还 提供 了 丰富 的 Wi 又 








档 ， 读 者 可 以 参考 以 下 链接 中 的 内 容 。 


Hive 的 Wi 页 面 : http: wiki.apache.org/hadoop/Hive 。 


Hive 入 门 指 南 : http: /Aviki.apache.org/hadoop/Hive/GettingStarted. 


HQL 查 询 语 言 指南 : http: /wiki.a 


pache.org/hadoop/Hive/HiveQL。 


演示 文稿 : http: //wiki.apache.org/hadoop/Hive/Presentations。 





于 Hive 本 身 还 处 在 不 断 的 发 展 











Ph， 很 多 时 候 文档 更 新 的 速度 还 赶不上 Hive 本 身 的 更 新 





速度 ， 因 此 ， 如 果 大 家 想 了 解 Hive 最 新 的 发 展 动态 或 想 与 研究 者 进行 交流 ， 那 么 可 以 加 入 
Hive 的 邮件 列表 ， 用 户 : hive-user@hadoop.apache.org， 开 发 者 : hive- 






































dev@hadoop.apache.org。 


11.2.2 配置 MySQL 存 储 Hive 元 数据 

















Hive 提 供 了 多 种 RDBMS 来 存储 Hive 的 元 数据 ， 包 括 Derby 、My SQL 等 。 相 信 有 很 多 
户 对 MySQL 还 是 比较 熟悉 的 。 因 此 ， 本 节 我 们 将 Hive 默 认 的 元 数据 存储 容器 由 Derby 修 改 为 
MySQL。 该 过 程 包括 两 个 步骤 : Hive 的 配置 及 My SQL 的 配置 。 下 面 介绍 具体 操作 。 

















(1) Hive 的 配置 


首先 需要 对 Hive 的 配置 文档 进行 修改 ， 即 $3HIVE_HOME/conf/hive-site.xml。 与 Derby 类 
似 ， 首 先 需 要 对 连接 字符 串 、 驱 动 、 数 据 库 用 户 名 及 密码 参数 进行 配置 ， 如 下 所 示 : 

















二 一 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 


<configuration> 

<property> 

<name>hive.metastore.local</name> 

<value>true</value> 

</property> 

<property> 

<name>javax.jdo.option.ConnectionURL</name> 

<value>jdbc: mysql: //localhost: 3306/hive? 
createDatabaselI fNotExist=true</value> 

</property> 

<property> 

<name>javax.jdo.option.ConnectionDriverName</name> 

<value>com.mysql.jdbc.Driver</value> 

</property> 

<property> 

<name>javax.jdo.option.ConnectionUserName</name> 

<value>hive</value> 

</property> 

<property> 

<name>javax.jdo.option.ConnectionPassword</name> 

<value>hive</value> 

</property> 


</configuration> 
[ee | 














另外 ， 需 要 下 载 MySQL 的 JDBC 驱 动 包 ， 这 里 使 用 的 是 “mysql-connector-java-5.1.11- 
bin.jar"， 将 其 复制 到 SHIVE_HOME/ib 目 录 下 即 可 。 








(2) My SQL 的 配置 

















首先 需要 安装 My SQL， 使 用 如 下 命令 : 


一 
sudo apt-get install mysql-server 


ee | 








执行 该 命令 将 自动 下 载 并 安装 My SQL [1] 。 此 外 ， 还 可 以 下 载 My SQL 安 装 包 进行 安 


装 ， 此 部 分 内 容 不 是 本 书 的 重点 ， 大 家 可 以 自行 查阅 相关 资料 。 
































My SQL 安 装 完成 后 ， 只 拥有 root 用 户 。 下 面 我 们 创建 Hive 系 统 的 用 户 权 限 ， 步 又 如 下 所 























//1 .创建 用 户 

CREATE USER'hive'@'%'IDENTIFIED BY'hive'; 

//2 .赋予 权限 

GRANT ALL PRIVILEGES ON*.*TO'hive'@'%'WITH GRANT OPTION; 
//3 .强制 写 出 


flush privileges; 
ER 























此 外 ， 为 了 使 远程 用 户 可 以 访问 MySQL， 需 要 修改 “/etc/mysqlmy.cnf" 文 件 ， 将 bind- 
address 一 行 注释 掉 ， 该 参数 绑 定 本 地 用 户 访问 。 























如 下 所 示 : 


[= | 
#Instead of skip-networking the default is now to listen only 
on 
#localhost which is more compatible and is not less secure. 
#bind-address=127.0.0.1 


ee | 














配置 完成 后 ， 使 用 如 下 命令 重启 MySQL 数 据 库 : 


aA 

















sudo/etc/ini.d/mysql restart 
jp 


上 述 配置 完成 后 便 可 以 像 之 前 一 样 运行 Hive 了 。 


U 在 不 同 版 本 的 Linux 中 该 命令 有 一 定 的 区 别 ， 要 视 具体 的 Linux 版 本 而 定 。 


11.2.3 配置 Hive 




















安装 好 Hive 后 ， 就 可 以 进行 简单 的 数据 操作 了 。 在 实际 应 用 中 ， 不 可 避免 地 要 进行 参数 
的 配置 和 调 优 ， 本 节 我 们 将 对 Hive 参 数 的 设置 进行 介绍 。 














首先 ， 在 进行 操作 前 要 确保 目录 权限 配置 正确 ; 将 /mp 目录 配置 成 所 有 用 户 都 有 write 权 
限 ， 表 所 对 应 目录 的 owner 必 须 是 Hive 启 动用 户 。 


























其 次 ， 可 以 通过 调整 Hive 的 参数 来 调 优 HQL 代 码 的 执行 效率 或 帮助 管理 员 进行 定位 。 参 
数 设 置 可 以 通过 配置 文件 、 命 令 行 参数 或 参数 声明 的 方式 进行 。 下 面具 体 进 行 介绍 











.配置 文件 


Hive 的 配置 文件 包括 : 




















户 自 定义 配置 文件 ， 即 $SHIVE_CONF DIRhive-site.xml; 





默认 配置 文件 ， 即 SHIVE_CONF_DIR/hive-default.xml。 








要 注意 的 是 ， 用 户 自 定义 配置 会 覆盖 默认 配置 。 另 外 ，Hive 也 会 读 入 Hadoop 的 配置 ， 因 
为 Hive 是 作为 Hadoop 的 客户 端 启动 的 。 














2. 运 行 时 配置 


当 运 行 Hive QL 时 可 以 进行 参数 声明 。Hive 的 查询 可 通过 执行 MapReduce 任 务 来 实现 ， 
而 有 些 查询 可 以 通过 控制 Hadoop 的 配置 参数 来 实现 。 在 命令 行 接口 〈CLI) 中 可 以 通过 SET 
命令 来 设置 参数 ， 例 如 : 
== 六 


hive>SET mapred.job.tracker=myhost.mycompany.com: 50030 
hive>set mapred.reduce.tasks=100; 
hive>SET-v 


TTT | 














通过 SETv 命 令 可 以 查看 当前 设 定 的 所 有 信息 。 需 要 指出 的 是 ， 通 过 CLI 的 SET 命令 设 定 























的 作用 域 是 Session 级 的 ， 只 对 本 次 操作 有 作用 。 此 外 ，SerDe 参 
如 : 

















数 必须 写 在 建 表 语 句 中 。 例 





| | 


create table if not exists t_Student ( 
name string 

) 

ROW FORMAT SERDE 
'org.apache.hadoop.hive.serde2.lazy.LazyS 
WITH SERDEPROPERTIES ( 

'field.delim'="\t', 

"escape.delim'='\\', 
'serialization.null.format'='' 

) STORED AS TEXTFILE; 


impleSerDe' 


= = == 


类 似 serialization.null.format 这 样 的 参数 ， 必 须 和 某 个 表 或 分 区 关联 。 在 DDL 外 部 声明 不 














起 作 





3. 设 置 本 地 模式 





对 于 大 多 数 查询 Query, Hive 编 译 器 会 产生 MapReduce 任 务 ， 
MapReduce 集 群 ， 这 些 集群 可 以 用 参数 mapred.job.tracker 指 明 。 























需要 说 明 的 是 ，Hadoop 支 持 在 本 地 或 集群 中 运行 Hive 提 交 























这 些 任 务 会 被 提交 到 


的 查询 ， 这 对 小 数据 集 查询 的 


运行 是 非常 有 用 的 ， 可 以 避免 将 任务 分 布 到 大 型 集群 中 而 降低 效率 。 在 将 MapReduce 任 务 提 
交 给 Hadoop 之 后 ，HDFS 中 的 文件 访问 对 用 户 来 说 是 透明 的 。 相 反 ， 如 果 是 大 数据 集 的 查 



































询 ， 那 么 需要 设 定 将 Hive 的 查询 交 给 集群 运行 ， 这 样 就 可 以 利 


集群 的 并 行 性 来 提高 效率 。 














我 们 可 以 通过 以 下 参数 设 定 Hive 查 询 在 本 地 运行 : 





和 


hive>SET mapred.job.tracker=local; 


E | 


最 新 的 Hive 版 本 都 支持 在 本 地 自动 运行 MapReduce 任 务 ; 


一 + 


hive>SET hive.exec.mode.local.auto=false; 
一 


可 以 看 到 该 属性 默认 是 关闭 的 。 如 果 设 定 为 开启 Cenable) ，Hive 就 会 先 分 析 查 询 中 的 
每 个 MapReduce 任 务 ， 当 任务 的 输入 数据 规模 低 于 Hive.exec.mode.local.auto.inputb-ytes.max 
属性 值 〈 默 认为 128MB) ， 并 且 全 部 的 Map 数 少 于 hive.exec.mode.local.auto.tasks.max 的 属性 
值 ( 默 认为 4) ， 全 部 的 Reduce 任 务 数 为 1 或 0 时 ， 任 务 会 自动 选择 在 本 地 模式 下 运行 











4.Error Logs 错 误 日 志 











Hive 使 用 log4j 记录 上 日志。 在 默认 情况 下 ， 日 志文 件 的 记录 等 级 是 WARN 〈 即 存储 紧急 程 
度 为 WARN 及 以 上 的 错误 信息 ) ， 存 储 在 /tmp/{usern-ame}/hive.log 文 件 夹 下 。 如 果 用 户 想 要 
在 终端 看 到 日 志 内 容 ， 则 可 以 通过 设置 以 下 参数 达到 目的 : 
































一 
bin/hive-hiveconf hive.root.logger=INFO, console 
| 


同样 ， 用 户 也 可 以 改变 日 志 记录 等 级 : 


TTT | 
bin/hive-hiveconf hive.root.logger=INFO, DRFA 
aaua: | 





























Hive 在 Hadoop 执 行 阶段 的 日 志 由 Hadoop 配 置 文件 配置 。 通 常 来 说 ，Hadoop 会 对 每 个 
Map 和 Reduce 任 务 对 应 的 执行 节点 生成 一 个 日 志文 件 。 这 个 日 志文 件 可 以 通过 JobTraclker 的 
Web UI 获 得 。 错 误 日 志 对 调试 错误 非常 有 用 ， 当 运行 过 程 中 遇 到 Bug 时 可 以 向 hive-d- 
ev@hadoop.apache.org 提 交 。 
































解 


二 


11.3 Hive QL 





11.3.1 数据 定义 (DDL) 操作 


1. 创 建 表 


下 面 是 在 Hive 中 创建 表 〈CREATE) 的 语法 : 


和 
CREATE [EXTERNAL] TABLE[IF NOT EXISTS]table_name 

(col name data_type[COMMENT col_comment], .....) ] 

COMMENT table comment] 

PARTITIONED BY (col_name data_type[col_comment], col_name 

data_type [COMMENT 

col_comment], .....) ] 

CLUSTERED BY (col_name, col_name, .....) [SORTED BY (col_name, 

m) JINTO num_ 

buckets BUCKETS] 

ROW FORMAT row_format] 

STORED AS file format] 

LOCATION hdfs_path] 

AS select_statement] (Note: this feature is only available on 

the latest trunk 

or versions higher than 0.4.0.) 

CREATE [EXTERNAL] TABLE[IF NOT EXISTS]table_ name 

LIKE existing table name 

LOCATION hdfs_path] 

data_type 

: primitive type 

array type 

map_type 

primitive_type 

: TINYINT 

SMALLINT 

INT 

BIGINT 

BOOLEAN 

FLOAT 

DOUBLE 

STRING 

array type 

: ARRAY<primitive_type> 

map_type 








: MAP<primitive_type, primitive _type> 

row_format 

: DELIMITED[FIELDS TERMINATED BY char] [COLLECTION ITEMS 
TERMINATED BY char] 

[MAP KEYS TERMINATED BY char] 

|SERDE serde name [WITH SERDEPROPERTIES 
property name=property value, property_ 

name=property value, .....] 

file_format: 

: SEQUENCEFILE 

| TEXTFILE 

| INPUTFORMAT input_format_classname OUTPUTFORMAT 
output_format_classname 


一 


下 面 进 行 相关 的 说 明 。 


CREATE TABLE， 创 建 一 个 指定 名 字 的 表 。 如 果 相 同名 字 的 表 已 经 存在 ， 则 抛 出 异常 ， 
户 可 以 用 IF NOT EXIST 选 项 来 忽略 这 个 异常 。 





























EXTERNAL 关 键 字 ， 创 建 一 个 外 部 表 ， 在 创建 表 的 同时 指定 一 个 指向 实际 数据 的 路 径 
(LOCATION) 。 在 Hive 中 创建 内 部 表 时 ， 会 将 数据 移动 到 数据 仓库 指向 的 路 径 ， 在 创建 外 
部 表 时 ， 仅 记录 数据 所 在 的 路 径 ， 不 对 数据 的 位 置 做 任何 改变 。 当 删除 表 时 ， 内 部 表 的 元 数 
据 和 数据 会 一 起 被 删除 ， 而 在 删除 外 部 表 时 只 删除 元 数据 ， 不 删除 数据 。 








LIKE 格 式 修饰 的 CREATE TABLE 命 令 允 许 复制 一 个 已 存在 表 的 定义 ， 而 不 复制 它 的 数 
据 内 容 。 

















这 里 还 需要 说 明 的 是 ， 用 户 可 以 使 用 自 定制 的 SerDe 或 自 带 的 SerDe 创 建 表 。SerDe 是 
Serialize/Deserilize 的 简称 ， 用 于 序列 化 和 反 序 列 化 。 在 Hive 中 ， 序 列 化 和 反 序列 化 即 在 
ley/value 和 hive table 的 每 个 列 值 之 间 的 转化 。 如 果 没 有 指定 ROW FORMAT 或 ROW FORMAT 
DELIMITE-D， 创 建 表 就 使 用 自 带 的 SerDe。 如 果 使 用 自 带 的 SerDe， 则 必须 指定 字段 列表 。 
关于 字段 类 型 ， 可 参考 用 户 指南 的 类 型 部 分 。 定 制 的 SerDe 字 段 列 表 可 以 是 指定 的 ， 但 是 
Hive 将 通过 查询 SerDe 决 定 实际 的 字段 列表 。 




























































































如 果 需 要 将 数据 存储 为 纯 文本 文件 ， 那 么 要 使 用 STORED AS TEXTFILE。 如 果 数 据 需 要 














压缩 ， 则 要 使 用 STORED AS SEQUENCEFILE。INPUTFORMAT 和 OUTPUTFORMAT 定 义 一 
个 与 InputFormat 和 OutputFormat 类 相对 应 的 名 字 作 为 一 个 字符 串 ， 例 如 ， 


将 “org.apache.hadoop.hive.contrib.fileformat.base64” 定 义 为 “Base64TextInputFormat”。 












































Hive 还 支持 建立 带 有 分 区 (Partition) 的 表 。 有 分 区 的 表 可 以 在 创建 的 时 候 使 
PARTITIONED BY 语句 。 一 个 表 可 以 拥有 一 个 或 多 个 分 区 ， 每 个 分 区 单独 存在 于 一 个 目录 
下 。 而 且 ， 表 和 分 区 都 可 以 对 某 个 列 进行 CLUSTERED BY 操作 ， 将 若干 个 列 放 入 一 个 桶 
(Bucket) 中 。 也 可 以 利用 SORT BY 列 来 存储 数据 ， 以 提高 查询 性 能 。 






































表 名 和 列 名 不 区 分 大 小 写 ， 但 SerDe 和 属性 名 是 区 分 大 小 写 的 。 表 和 列 的 注释 分 别 是 以 
单 引 号 表示 的 字符 串 。 


























E 


下 面 通过 一 组 例子 来 对 CREATE 命 令 进行 介绍 ， 以 加 深 用 户 的 理解 。 


例 1: 创建 普通 表 














下 面 代码 将 创建 page_view 表 ， 该 表 包 括 viewTime、userid、page_url、referrer_url 和 ip 


E 


列 。 
二 一 


CREATE TABLE page view (viewTime INT, userid BIGINT, 
page_url STRING, referrer_url STRING, 

ip STRING COMMENT'IP Address of the User') 
COMMENT'This is the page view table'; 


E 
例 2: 添加 表 分 


Xl 








下 面 代 码 将 创建 page_view 表 ， 该 表 所 包含 字段 与 例 ! 中 page_view 表 相同 。 此 外 ， 通 过 
了 Partition 语 句 为 该 表 建立 分 区 ， 并 用 制 表 符 来 区 分 同一 行 中 的 不 同 字段 。 
SSeS 


CREATE TABLE page_view (viewTime INT, userid BIGINT， 
page_url STRING, referrer url STRING, 

ip STRING COMMENT'IP Address of the User') 
COMMENT'This is the page view table' 
































PARTITIONED BY (dt 


STRING, country STRING) 


ROW FORMAT DELIMITED 
FIELDS TERMINATED BY'\001' 
STORED AS SEQUENCEFILE; 


了 


例 3: 添加 聚 类 存储 


下 面 代 码 将 创建 page_view 





表 分 区 的 基础 上 增加 了 聚 类 存储 : 将 列 按照 userid 进 行 分 区 并 划分 到 不 同 的 桶 中 


表 ， 该 表 所 包含 字段 与 例 1 中 page_view 表 相同 。 在 page_view 
， 按 照 





t 




















viewTime 值 的 大 小 进行 排序 存储 。 这 样 的 组 织 结构 允许 用 户 通过 userid 属 性 高 效 地 对 集群 列 





进行 采样 。 








1 
CREATE TABLE page view (viewTime INT, userid BIGINT, 
page_url STRING, referrer url STRING, 
ip STRING COMMENT'IP Address of the User') 
COMMENT'This is the page view table' 


PARTITIONED BY (dt 
CLUSTERED BY (useri 


STRING, country STRING) 
d) SORTED BY (viewTime) INTO 32 BUCKETS 


ROW FORMAT DELIMITED 

FIELDS TERMINATED BY'\001' 
COLLECTION ITEMS TERMINATED BY'\002"' 
MAP KEYS TERMINATED BY'\003' 

STORED AS SEQUENCEFILE; 


—_—_—_—__CCOOOOOOOO—“—3-€38OoOoO = 


例 4: 指定 存储 路 径 


到 目前 为 止 ， 在 所 有 例子 








hh， 数据 都 默认 存储 在 HDFS 的 二 hive.metastore.warehouse.dir 





/<table 二 目录 中 ， 它 在 Hive 配 置 的 文件 hive-site.xml 中 设 定 。 我 们 可 以 通过 Location 为 表 指 


定 新 的 存储 位 置 ， 如 下 所 示 : 


a*l 
CREATE EXTERNAL TABLE page_view (viewTime INT, userid BIGINT, 
page_url STRING, referrer_url STRING, 
ip STRING COMMENT'IP Address of the User', 
country STRING COMMENT'country of origination') 

COMMENT'This is the staging page view table' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY'\054' 


STORED AS TEXTFILE 


LOCATION'<hdfs_location>'; 
ee 


2. 修 改 表 语 句 

















ALTER TABLE 语 句 用 于 改变 一 个 已 经 存在 的 表 的 结构 ， 比 如 增加 列 或 分 区 ， 改 变 
SerDe、 添 加 表 和 SerDe 的 属性 或 重 命名 表 。 











(1) 重 命 名 表 


二 一 
ALTER TABLE table name RENAME TO new_ table name 


=—CetllTETEHTEHOEOnonouowouwuwr—OW019W?—R0OmDHuuR eee ， 




















这 个 命令 可 以 让 用 户 为 表 更 名 。 数 据 所 在 的 位 置 和 分 区 名 并 不 改变 。 换 而 言 之 ， 旧 的 表 
名 并 未 “释放 ”， 对 旧 表 的 更 改 会 改变 新 表 的 数据 。 














(2) 改变 列 名 字 / 类 型 /位 置 /注释 


本 
ALTER TABLE table name CHANGE [COLUMN] 
col_old_name col new name column_type 
[COMMENT col comment] 
[FIRST|AFTER column_name] 


TT | 











这 个 命令 允许 用 户 修改 列 的 名 称 、 数 据 类 型 、 注 释 或 位 置 ， 例 如 : 


> 
CREATE TABLE test_change (a int, b int, c int); 
ALTER TABLE test_change CHANGE a al INT; // 将 a 列 的 名 字 改 为 al 
ALTER TABLE test_change CHANGE a al STRING AFTER b; 
// 将 a 列 的 名 字 改 为 a1，a 列 的 数据 类 型 改 为 string， 并 将 它 放置 在 列 b 之 后 
Ce ) 














修改 后 ， 新 的 表 结 构 为 : b int, al string, c int. 


| 
ALTER TABLE test_change CHANGE b bl INT FIRST; 
// 会 将 b 列 的 名 字 修 改 为 pb1 ， 并 将 它 放 在 第 一 列 
| 





修改 后 ， 新 表 的 结构 为 : bl int, a string, c int. 











注意 列 的 改变 只 会 修改 Hive 的 元 数据 ， 而 不 会 改变 实际 数据 。 用 户 应 该 确保 元 数据 定 
义 和 实 际 数据 结构 的 一 致 性 。 








(3) 增加 /更 新 列 


[ee | 
ALTER TABLE table name ADD|REPLACE 
COLUMNS (col_name data_type [COMMENT col_comment], .... ) 


二 一 




















ADD COLUMNS， 人 允许 用 户 在 当前 列 的 末尾 、 分 区 列 之 前 增加 新 的 列 。REPLACE 
COLUMNS， 删 除 当前 的 列 ， 加 入 新 的 列 。 只 有 在 使 用 native 的 SerDE (DynamicSerDe 或 
MetadataTy peColumnsetSerDe ) 时 才 可 以 这 么 做 。 




















(4) 增加 表 属性 


一 = 一 一 
ALTER TABLE table name SET TBLPROPERTIES table properties 
table properties: 

(property_name=property value, 

property name=property value. ..... ) 

sd 


























户 可 以 用 这 个 命令 向 表 中 增加 元 数据 ， 目 前 last_ modified_user、last_modified_time 属 
性 都 是 由 Hive 自 动 管理 的 。 用 户 可 以 向 列表 中 增加 自己 的 属性 ， 可 以 使 用 DESCRIBE 
EXTENDED TABLE 来 获得 这 些 信息 。 





















































(5) 增加 SerDe 属 性 


> 
ALTER TABLE table name 
SET SERDE serde class_name 
[WITH SERDEPROPERTIES serde_properties] 
ALTER TABLE table name 
SET SERDEPROPERTIES serde_properties 
serde_properties: 
(property_name=property value, 
property name=property value, ......) 


i 




















这 个 命令 允许 用 户 向 SerDe 对 象 增加 用 户 定 义 的 元 数据 。Hive 为 了 序列 化 和 反 序列 化 数 
据 ， 将 会 初始 化 SerDe 属 性 ， 并 将 属性 传 给 表 的 SerDe。 这 样 ， 用 户 可 以 为 自 定义 的 SerDe 存 
储 属性 。 









































(6) 改变 表 文 件 格式 和 组 引 


| 


e—a ue | 
ALTER TABLE table_name SET FILEFORMAT file_format 
ALTER TABLE table_name CLUSTERED BY (col_name, col_name, pi 
[SORTED BY (col_name, .....) ] INTO num_buckets BUCKETS 


二 一 


这 个 命令 修改 了 表 的 物理 存储 属性 。 











注意 ”这些 命 令 只 能 修改 Hive 的 元 数据 ， 不 能 重组 或 格式 化 现 有 的 数据 。 用 户 应 该 确定 
实际 数据 的 分 布 符合 元 数据 的 定义 。 

















3. 表 分 区 操作 语义 





Hive 在 进行 数据 查询 的 时 候 一 般 会 对 整个 表 进 行 扫描 ， 当 表 很 大 时 将 会 消耗 很 多 时 间 。 
有 时候 只 需要 对 表 中 比较 关心 的 一 部 分 数据 进行 扫描 ， 因 此 Hive 引 入 了 分 区 (Partition》 的 


























Hive 表 分 区 不 同 于 一 般 分 布 式 系统 中 常见 的 范围 分 区 、 哈 希 分 区 、 一 致 性 分 区 等 概念 。 
Hive 的 分 区 相对 比较 简单 ， 是 在 Hive 的 表 结构 下 根据 分 区 的 字段 设置 将 数据 按 目录 进行 存 
放 。 相 当 于 简单 的 索引 功能 。 















































Hive 表 分 区 需要 在 表 创 建 的 时 候 指定 模式 才能 使 用 。 它 的 字段 指定 的 是 虚拟 的 列 ， 在 实 
际 的 表 中 并 不 存在 。 在 Hive 表 分 区 的 模式 下 可 以 指定 多 级 的 结构 ， 相 当 于 对 目录 进行 了 柑 
套 。 表 模式 在 创建 完成 之 后 使 用 之 前 还 需要 通过 ALTER TABLE 语 句 添 加 具体 的 分 区 目录 才 






























































Hive 表 分 区 的 命令 主要 包括 创建 分 区 、 增 加 分 区 和 删除 分 区 。 其 中 创建 分 区 已 经 在 
CREATE 语 句 中 进行 介绍 ， 下 面 介绍 一 下 为 Hive 表 增加 分 区 和 删除 分 区 命令 。 












































a) 增 力 


> 
x! 





ALTER TABLE table name ADD 
partition_spec[LOCATION'location1']partition_spec[ 

LOCATION'location2")...... 

partition_spec: 

: PARTITION (partition_col=partition_col_value, 
partition_col=partiton_col_ 

value, n.) 


一 


























户 可 以 用 ALTER TABLE ADD PARTITION 来 对 表 增 加 分 区 。 当 分 区 名 是 字符 串 时 加 
引号 ， 例 如 : 




















[| 
ALTER TABLE page view ADD 
PARTITION (dt='2010-08-08', country='us') 
location'/path/to/us/part080808' 
PARTITION (dt='2010-08-09', country='us') 
location'/path/to/us/part080809'; 


和 


(2) 删除 分 区 


x! 





OOOO oo 
ALTER TABLE table name DROP 
partition_spec, partition_spec, me.. 


| T a kOe OE Oe 





























户 可 以 用 ALTER TABLE DROP PARTITION 来 删除 分 区 ， 分 区 的 元 数据 和 数据 将 被 一 
并 删除 ， 例 如 : 

















i 
ALTER TABLE page view 
DROP PARTITION (dt='2010-08-08', country='us'); 


eee | 


下 面 我 们 通过 一 组 例子 对 分 区 命令 及 相关 知识 进行 讲解 。 

















假设 我 们 有 一 组 电影 评分 数据 [1] ， 该 数据 包含 以 下 字段 : 用 户 ID、 电 影 ID、 电 影评 
分 、 影 片 放映 城市 、 影 片 观看 时 间 。 首 先 ， 我 们 使 用 Hive 命 令 行 创建 电影 评分 表 ， 如 代码 清 
单 11-1 所 示 。 



































代码 清单 11-1 创建 电影 评分 表 ul_data 


ee | 
create table ul data ( 
userid int, 
movieid int, 
rating int, 
city string, 
viewTime string) 
row format delimited 
fields terminated by'\t' 
stored as textfile; 


SSS | 

















该 表 为 普通 用 户 表 ， 字 段 之 间 通 过 制 表 符 “\* 进 行 分 割 。 通 过 Hadoop 命 令 可 以 查看 该 表 
的 目录 结构 如 下 所 示 : 





”= 
hadoop fs-ls/user/hive/warehouse/ul data:; 
Found 1 items 
-rw-r--r--1 hadoop supergroup 2609206 2012-05-17 01: 
27/user/hive/warehouse/ 
ul_data/u.data.new 


二 一 


可 以 看 到 ul_data 标 下 并 没有 分 区 。 

















下 面 我 们 创建 带 有 一 个 分 区 的 用 户 观 影 数 据 表 ， 如 代码 清单 11-2 所 示 。 











代码 清单 11-2 ”创建 电影 评分 表 u2_data: 





一 
create table u2_data ( 
userid int, 
movieid int, 
rating int, 
city string, 
viewTime string) 


PARTITIONED BY (dt string) 
row format delimited 
fields terminated by'\t' 
stored as textfile; 


一 


在 该 表 中 指定 了 单个 表 分 区 模式 ， 即 “dt string”， 在 表 刚 刚 创建 的 时 候 我 们 可 以 查看 该 表 
的 目录 结构 ， 发 现 其 并 没有 通过 dt 对 表 结 构 进行 分 区 ， 如 下 所 示 : 























| 
hadoop fs-ls/user/hive/warehouse/u2_data; 
Found 1 items 
drwxr-xr-x-hadoop supergroup 0 2012-05-17 01: 
33/user/hive/warehouse/u2_data/ 


一 














下 面 我 们 使 用 该 模式 对 表 指 定 具 体 分 区 ， 如 下 所 示 : 











二 一 
alter table u2_data add partition (dt='20110801') ; 


一 


此 时 ， 无 论 是 否 加 载 数 据 ， 该 表 根 目录 下 将 存在 dt=20110801 分 区 ， 如 下 所 示 : 





一 
hadoop fs-ls/user/hive/warehouse/u2_data; 
Found 1 items 
drwxr-xr-x-hadoop supergroup 0 2012-05-17 01: 
33/user/hive/warehouse/u2_data/dt=20110801 


二 一 


这 里 有 两 点 需要 注意 : 











D 当 没 有 声明 表 模 式 的 时 候 不 能 为 表 指 定 具体 的 分 区 。 若 为 表 u2_data 指 定 city 分 区 ， 将 
提示 以 下 错误 : 


hive>alter table u2_data add partition (dt='20110901', 
city='"dbH') ; 

FAILED: Error in metadata: table is partitioned but partition 
spec is not specified 

or does not fully match table partitioning: {dt=20110901, 
city= 北 京 } 

FAILED: Execution Error, return code 1 from 


org.apache.hadoop.hive.ql.exec.DDLTask 


oe | 





2) 分 区 名 不 能 与 表 属 性 名 








复 ， 如 下 所 示 : 








| 

create table u2_data ( 

userid int, 

movieid int, 

rating int, 

city string, 

viewTime string) 

PARTITIONED BY (city string) 

row format delimited 

fields terminated by'\t' 

stored as textfile; 

FAILED: Error in semantic analysis: Column repeated in 
partitioning columns 


TTT | 


另外 ， 还 可 以 为 表 创建 多 个 分 区 ， 相 当 于 多 级 索引 的 功能 。 以 电影 评分 表 为 例 ， 我 们 创 
建 dt string 和 city string 两 级 分 区 ， 如 代码 清单 11-3 所 示 。 














代码 清单 11-3 ”创建 电影 评分 表 u3_data: 


| 
create table u3_data ( 
userid int, 
movieid int, 
rating int) 
PARTITIONED BY (dt string, city string) 
row format delimited 
fields terminated by'\t' 
stored as textfile; 


| 




















下 面 ， 我 们 使 用 模式 指定 一 个 具体 的 分 区 并 查看 HDFS 目 录 ， 如 下 所 示 : 











一 ===34 

alter table u3 data add partition (dt='20110801', city=' 北 
MDs 

hadoop fs-ls/user/hive/warehouse/u3_data/dt=20110801; 

Found 1 items 

drwxr-xr-x-hadoop supergroup 0 2012-05-17 19: 
27/user/hive/warehouse/ 


u3_data/dt=20110801/city= 北 京 
= 


对 于 数据 加 载 操作 我 们 将 在 11.3.2 节 数据 操作 DML) PEAT TRAST ER, FANE 


述 。 





4. 删 除 表 


OOOO | 
DROP TABLE table name 


二 一 




















DROP TABLE 用 于 删除 表 的 元 数据 和 数据 。 如 果 配 置 了 Trash， 那 么 会 将 数据 删除 到 
Trash/Current 目 录 ， 元 数据 将 完全 丢失 。 当 删除 EXTERNAL 定 义 的 表 时 ， 表 中 的 数据 不 会 从 
文件 系统 中 删除 。 








5. 创 建 /删除 视图 
目前 ， 只 有 Hive 0.6 之 后 的 版 本 才 支 持 视图 。 
(1) 创建 表 视 图 


5 
CREATE VIEW[IF NOT EXISTS] view_name[ (column name [COMMENT 


column comment], .....) ] 
COMMENT view_comment] 
AS SELECT...... 


二 一 
CREATE VIEW， 以 指定 的 名 称 创建 一 个 表 视图 。 如 果 表 或 视图 的 名 字 已 经 存在 ， 则 报 
Wi, tH AY LEIF NOT EXISTS 忽 略 这 个 错误 。 

















如 果 没 有 提供 表 名 ， 则 视图 列 的 名 字 将 由 定义 的 SELECT 表 达 式 自动 生成 ， 如 果 SELECT 
包括 像 x+y 这 样 的 无 标量 的 表达 式 ， 则 视图 列 的 名 字 将 生成 _C0，_C1 等 形式 。 当 重 命名 列 
时 ， 可 有 选择 地 提供 列 注释 。 注 释 不 会 从 底层 列 自 动 继 承 。 如 果 定 义 SELECT 表 达 式 的 视图 
是 无 效 的， 那么 CREATE VIEW 语句 将 失败 。 
































注意 ”没有 关联 存储 的 视图 是 纯粹 的 逻辑 对 象 。 目 前 在 Hive 中 不 支持 物化 视图 。 当 一 个 
查询 引用 一 个 视图 时 ， 可 以 评估 视图 的 定义 并 为 下 一 步 查 询 提供 记录 集合 。 这 是 一 种 概念 的 
描述 ， 实 际 上 ， 作 为 查询 优化 的 一 部 分 ，Hive 可 以 将 视图 的 定义 与 查询 的 定义 结合 起 来 ， 例 
如 从 查询 到 视图 使 用 的 过 滤器 。 






























































在 创建 视图 的 同时 确定 视图 的 架构 ， 随 后 再 改变 基本 表 〈 如 添加 一 列 ) 将 不 会 在 视图 的 
架构 中 体现 。 如 果 基 本 表 被 删除 或 以 不 兼容 的 方式 被 修改 ， 则 该 无 效 视图 的 查询 失败 。 


可 






































视图 是 只 读 的 ， 不 能 用 于 LOAD/INSERT/ALTER 的 目标 。 























视图 可 能 包含 ORDER BY 和 LIMIT 子 句 。 如 果 一 个 引用 了 视图 的 查询 也 包含 了 这 些 子 
句 ， 那 么 在 执行 这 些 子 句 时 首先 要 查看 视图 语句 ， 然 后 返回 结果 按 视 图 中 语句 执行 。 例 如 ， 
一 个 视图 v 指 定 返回 记录 LIMIT 为 5， 执 行 查询 语句 : select*from v LIMIT 10， 这 个 查询 最 多 
返回 5 行 记录 。 


























以 下 是 创建 视图 的 例子 : 


ee | 

CREATE VIEW onion referrers (url COMMENT'URL of Referring 
page') 

COMMENT'Referrers to The Onion website’ 

AS 

SELECT DISTINCT referrer url 

FROM page_view 

WHERE page_url='http: //www.theonion.com'; 
ee | 


(2) 删除 表 视 图 


OO ?.— TT 
DROP VIEW view_name 


TTT | 























DROP VIEW， 删 除 指定 视图 的 元 数据 。 在 视图 中 使 用 DROP TABLE 是 错误 的 ， 例 如 : 


一 
DROP VIEW onion_referrers; 


5 


6. 创 建 /删除 函数 


(1) 创建 函数 


I 
CREATE TEMPORARY FUNCTION function_name AS class_name 


二 一 























该 语句 创建 了 一 个 由 类 名 实现 的 函数 。 在 Hive 中 可 以 持续 使 用 该 函数 查询 ， 也 可 以 使 
Hive 类 路 径 中 的 任何 类 。 用 户 可 以 通过 执行 ADD FILES 语 句 将 函数 类 添加 到 类 路 径 ， 可 参阅 
户 指南 CLI 部 分 了 解 有 关 在 Hive 中 添加 /删除 函数 的 更 多 信息 。 使 用 该 语句 注册 用 户 定 义 函 
数 。 


































































































(2) 删除 函数 




















注销 用 户 定义 函数 的 格式 如 下 : 





一 
DROP TEMPORARY FUNCTION function name 
| | 


7. 展 示 描 述 语句 


在 Hive 中 ， 该 语句 提供 一 种 方法 对 现 有 的 数据 和 元 数据 进行 查询 。 





(1) 显示 表 


二 一 
SHOW TABLES identifier with wildcards 


ee | 





SHOW TABLES 列 出 了 所 有 基 表 及 与 给 定 正则 表达 式 名 字 相 匹配 的 视图 。 在 正则 表达 式 
中 ， 可 以 使 用 “*” 来 匹配 任意 字符 ， 并 使 用 “[]” 或 “|”* 来 表示 选择 关系 。 例 
如 'page_view'、'page_v**、'*view|page*'， 所 有 这 些 将 匹配 'page_view' 表 。 匹 配 表 按 字母 顺 
序 排列 。 在 元 存储 中 ， 如 果 没 有 找到 匹配 的 表 ， 则 不 提示 错误 。 


















































区 


(2) 显示 分 





| | 
SHOW PARTITIONS table name 
二 一 


ph 的 所 有 现 有 分 区 ， 分 区 按 字 母 顺 序 排列 。 

















SHOW PARTITIONS 列 出 了 给 定 基 表 中 


G) 显示 表 / 分 区 扩展 
二 一 一 
SHOW TABLE EXTENDED[IN|FROM database name]LIKE 
identifier _with_wildcards 
[PARTITION (partition desc) ] 
== 有 有 
A E 规 表达 式 的 表 信 息 。 如 果 分 区 规范 


SHOW TABLE EXTENDED 为 列 出 所 有 给 定 的 匹配 
E 规 表达 式 作为 表 名 。 该 命令 的 输出 包括 基本 表 信 息 和 文件 系统 信 


存在 ， 那 么 
息 ， 例 如 ， 文 件 总 数 、 文 件 总 大 小 、 最 大 文件 大 小 、 最 小 文件 大 小 、 最 新 存储 时 间 和 最 新 更 
区 存在 ， 则 它 会 输出 给 定 分 区 的 文件 系统 信息 ， 而 不 是 表 中 的 文件 系统 信 





























户 不 能 使 用 























新 时 间 。 如 果 分 














息 。 
作为 视图 ，SHOW TABLE EXTENDED 用 于 检索 视图 的 定义 。 


(4) 显示 函数 
了 

SHOW FUNCTIONS"a.*" 
+ 








E 规 表达 式 的 函数 。 可 以 为 所 








户 定义 和 建立 所 有 匹配 给 定 了 

















SHOW FUNCTIONS 为 列 出 


有 函数 提供 ".*"。 


(5) 描述 表 / 列 
= = 一 = 

DESCRIBE [EXTENDED] table name[DOT col name] 

DESCRIBE [EXTENDED] table name[DOT col name ([DOT field name] 
[DOT'$elem$'] | 

[DOT'$key$'] | [DOT'$value$']) *] 
A 


DESCRIBE TABLE 为 显示 列 信息 ， 包 括 给 定 表 的 分 区 。 如 果 指 定 EXTENDED 关 键 字 ， 
则 将 在 序列 化 形式 中 显示 表 的 所 有 元 数据 。DESCRIBE TABLE 通 常 只 用 于 调试 ， 而 不 用 在 平 
常 的 使 用 中 。 



























































如 果 表 有 复杂 的 列 ， 可 以 通过 指定 数组 元 素 
table_name.complex_col name (和 '$elem$' 作 为 数组 元 素 ，'$key$' 为 图 的 主键 ，'$value$' 为 
图 的 属性 ) 来 检查 该 列 的 属性 。 对 于 复杂 的 列 类 型 ， 可 以 使 用 这 些 定义 进行 递归 查询 。 




















(6) 描述 分 区 


一 
DESCRIBE [EXTENDED] table_name partition_spec 
一 








该 语句 列 出 了 给 定 分 区 的 元 数据 ， 其 输出 和 DESCRIBE TABLE 类 似 。 目 前 ， 在 查询 计划 
准备 阶段 不 能 使 用 这 些 列 信息 。 




















[1] http: //www.grouplens.org/node/73. 


11.3.2 ”数据 操作 (DML) 














下 面 我 们 将 详细 介绍 DML， 它 是 数据 操作 类 语言 ， 其 中 包括 向 数据 表 加 载 文 件 、 写 查询 
结果 等 操作 。 





1. 向 数据 表 中 加 载 文件 





当 数 据 被 加 载 至 表 中 时 ， 不 会 对 数据 进行 任何 转换 。Load 操 作 只 是 将 数据 复制 /移动 至 
Hive 表 对 应 的 位 置 ， 代 码 如 下 : 
re | 


LOAD DATA[LOCAL] INPATH'filepath' [OVERWRITE] 
INTO TABLE tablename 
PARTITION (partcoll=vall, partcol2=val2.....) ] 


ot 














其 中 ，filepath 可 以 是 相对 路 径 〈 例 如 ，projectdatal ) ， 可 以 是 绝对 路 径 〔 例 
Ml, /user/admin/project/datal) ， 也 可 以 是 完整 的 URI〈 例 如 ，hdfs: /NameNodelP: 




















9000/user/admin/project/datal) 。 加 载 的 目标 可 以 是 一 个 表 或 分 区 。 如 果 表 包含 分 区 ， 则 必 
须 指定 每 个 分 区 的 分 区 名 。filepath 可 以 引用 一 个 文件 (在 这 种 情况 下 ，Hive 会 将 文件 移动 到 
表 所 对 应 的 目录 中 ) 或 一 个 目录 (在 这 种 情况 下 ，Hive 会 将 目录 中 的 所 有 文件 移动 至 表 所 对 
应 的 目录 中 ) 。 如 果 指 定 LOCAL， 那 么 load 命 令 会 去 查找 本 地 文件 系统 中 的 filepath。 如 果 发 
现 是 相对 路 径 ， 则 路 径 会 被 解释 为 相对 于 当前 用 户 的 当前 路 径 。 用 户 也 可 以 为 本 地 文件 指定 
一 个 完整 的 URI， 比 如 file: ///user/hive/project/data。 此 时 load 命 令 会 将 filepath 中 的 文件 复制 
到 目标 文件 系统 中 ， 目 标 文件 系统 由 表 的 位 置 属 性 决定 ， 被 复制 的 数据 文件 移动 到 表 的 数据 
对 应 的 位 置 。 如 果 没 有 指定 LOCAL 关 键 字 ，filepath 指 向 一 个 完整 的 URI， 那 么 Hive 会 直接 使 
这 个 URI。 如 果 没 有 指定 schema 或 authority ， 则 Hive 会 使 用 在 Hadoop 配 置 文件 中 定义 的 

















































































































schema 和 authority, fs.defaultname 属 性 指定 NameNode 的 URI。 如 果 路 径 不 是 绝对 的 ， 那 么 
Hive 会 相对 于 /user/ 进 行 解释 。Hive 还 会 将 filepath 中 指定 的 文件 内 容 移 动 到 table (或 
partition) 所 指定 的 路 径 中 。 如 果 使 用 OVERWRITE 关 键 字 ， 那 么 目标 表 〈 或 分 区 ) 中 的 内 容 
(如 果 有 ) 会 被 删除 ， 并 且 将 filepath 指 向 的 文件 /目录 中 的 内 容 添加 到 表 / 分 区 中 。 如 果 目 标 





























区 
































R 《或 分 区 ) 中 已 经 有 文件 ， 并 且 文件 名 和 filepath 中 的 文件 名 冲突 ， 那 么 现 有 的 文件 会 被 新 
文件 所 替代 。 











tt 


2. 将 查询 结果 插入 Hive 表 中 














查询 的 结果 通过 insert 语 法 加 入 到 表 中 ， 代 码 如 下 : 


一 

INSERT OVERWRITE TABLE tablenamel [PARTITION (partcoll=vall, 
partcol2=va12......) ] 

select_statement1l FROM from_statement 

Hive extension (multiple inserts) : 

FROM from_statement 

INSERT OVERWRITE TABLE tablenamel [PARTITION (partcoll=vall, 
partcol2=va12......) ] 

select_statementl 

[INSERT OVERWRITE TABLE 
tablename2 [PARTITION.....] select_statement2]..... 

Hive extension (dynamic partition inserts) : 

INSERT OVERWRITE TABLE tablename PARTITION (partcoll[=vall1], 
partcol2 [=val2]......) 

select_statement FROM from_statement 


TT | 

这 里 需要 注意 的 是 ， 插 入 可 以 针对 一 个 表 或 一 个 分 区 进行 操作 。 如 果 对 一 个 表 进行 了 划 
分 ， 那 么 在 插入 时 就 要 指定 划分 列 的 属性 值 以 确定 分 区 。 每 个 Select 语 句 的 结果 会 被 写 入 选 
择 的 表 或 分 区 中 ，OVERWRITE 关 键 字 会 强制 将 输出 结果 写 入 。 其 中 输出 格式 和 序列 化 方式 
表 的 元 数据 决定 。 在 Hive 中 进行 多 表 插入 ， 可 以 减少 数据 扫描 的 次 数 ， 因 为 Hive 可 以 只 扫 
措 输 入 数据 一 次 ， 而 对 输入 数据 进行 多 个 操作 命令 。 





















































3. 将 查询 的 结果 写 入 文件 系统 


查询 结果 可 以 通过 如 下 命令 插入 文件 系统 目录 : 


= = 一 二 一 一 一 = 一 = 
INSERT OVERWRITE[LOCAL] DIRECTORY directoryl SELECT......FROM...... 
Hive extension (multiple inserts): 
FROM from_statement 
INSERT OVERWRITE[LOCAL]DIRECTORY directoryl select_statementl 
[INSERT OVERWRITE[LOCAL] DIRECTORY directory2 


select_statement2]..... 
一 | 


这 里 需要 注意 的 是 ， 目 录 可 以 是 完整 的 URI。 如 果 scheme 或 authority 没有 定义 ， 那 么 
的 scheme 和 authority 来 定义 NameNode 的 








Hive 会 使 用 Hadoop 的 配置 参数 fs.defaultnamed 
URI。 如 果 使 用 LOCAL 关 键 字 ， 那 么 Hive 会 将 数据 写 入 本 地 文件 系统 中 。 









































区 分 ， 换 行 表示 一 行 数据 结 














在 将 数据 写 入 文件 系统 时 会 进行 文本 序列 化 ， 并 且 每 列 用 ^A 
束 。 如 果 任何 一 列 不 是 原始 类 型 ， 那 么 这 些 列 将 会 被 序列 化 为 JSON 格 式 。 








11.3.3 SQL 操作 


下 面 是 一 个 标准 的 Select 语 句 语 法 定义 : 


[| 
SELECT[ALL|DISTINCT] select expr, select_expr, ...... 
FROM table reference 
[WHERE where condition] 
[GROUP BY col list] 
[CLUSTER BY col list 
| [DISTRIBUTE BY col_list] [SORT BY col_list] 
] 
[ 


LIMIT number] 
一 


下 面 对 其 中 重要 的 定义 进行 说 明 。 











(1) table_reference 





table_reference 指 明 查 询 的 输入 ， 它 可 以 是 一 个 表 、 一 个 视图 或 一 个 子 查询 。 下 面 是 一 
个 简单 的 查询 ， 检 索 所 有 表 tL 中 的 列 和 行 : 


一 
SELECT*FROM t1 


ee | 





(2) WHERE 





where_condition 是 一 个 布尔 表达 式 。 比 如 下 面 的 查询 只 输出 sales 表 中 amount>10 且 
region 属 性 值 为 US 的 记录 : 


和 
SELECT*FROM sales WHERE amount>10 AND region="US" 


5 


(3) ALL 和 DISTINCT 


ALL 和 DISTINCT 选 项 可 以 定义 重复 的 行 是 否 要 返回 。 如 果 没 有 定义 ， 那 么 默认 为 
ALL， 即 输出 所 有 的 匹配 记录 而 不 删除 重复 的 记录 ， 代 码 如 下 : 











本 全 
hive>SELECT coll, col2 FROM tl 
1:3 
E; 


ive>SELECT DISTINCT coll, col2 FROM t1 


ive>SELECT DISTINCT coll FROM t1 


NPDNPRPONE 


(4) LIMIT 


LIMIT 可 以 控制 输出 的 记录 数 ， 随 机 选取 检索 结果 中 的 相应 数目 输出 : 





5 
SELECT*FROM t1 LIMIT 5 


N 
下 面 代码 为 输出 Top-k l=5 的 查询 结 


一 
SET mapred.reduce.tasks=1 
SELECT*FROM sales SORT BY amount DESC LIMIT 5 


i 














(5) 使 用 正则 表达 式 














SELECT 声明 可 以 匹配 使 用 一 个 正则 表达 式 的 列 。 下 面 的 例子 会 对 sales 表 中 除了 ds 和 hr 的 
所 有 列 进行 扫描 : 























一 
SELECT (ds|hr) ?+.+FROM sales 


TT | 


(6) 基于 分 区 的 查询 




















通常 来 说 ，SELECT 查 询 要 扫描 全 部 的 表 。 如 果 一 个 表 是 使 用 PARTITIONED BY 语句 产 





生 的 ， 那 么 查询 可 以 对 输入 进行 “ 剪 枝 ”， 只 对 表 的 相关 部 分 进行 扫描 。Hive 现 在 只 对 在 
WHERE 中 指定 的 分 区 断言 进行 “ 剪 枝 ” 式 的 扫描 。 举 例 来 说 ， 如 果 一 个 表 page_view 按 照 date 
列 的 值 进行 了 分 区 ， 那 么 下 面 的 查询 可 以 检索 出 日 期 为 2010-03-01 的 行 记录 : 


= 一 一 二 一 2% 
SELECT page views.* 
FROM page views 
WHERE page_views.date>='2010-03-01'AND page views.date< 
='2010-03-31' 
| g | 

















(7) HAVING 








Hive 目 前 不 支持 HAVING 语 义 ， 但 是 可 以 使 用 子 查 询 实现 ， 示 例如 下 : 











和 
SELECT coll FROM tl GROUP BY coll HAVING SUM (col2) >10 


TT | 
可 以 表示 为 : 


| | 
SELECT coll FROM (SELECT coll, SUM (col2) AS col2sum FROM t1 
GROUP BY coll) t2 
WHERE t2.col2sum>10 


P= 


H 


我 们 可 以 将 查询 的 结果 写 入 到 目录 中 : 


| 
hive>INSERT OVERWRITE DIRECTORY'/tmp/hdfs_out'SELECT a.*FROM 
invites a WHERE 
a.ds='2009-09-01'; 


一 一 一 一 一 








上 面 的 例子 将 查询 结果 写 入 /tmp/hdfs_out 目 录 中 。 也 可 以 将 查询 结果 写 入 本 地 文件 路 
径 ， 如 下 所 示 : 
El 


hive>INSERT OVERWRITE LOCAL DIRECTORY'/tmp/local_out'SELECT 
a.*FROM pokes a; 


| | 





























其 他 (例如 GROUP BY 和 JOIN ) 的 作用 和 SQL 相同 ， 就 不 再 费 述 ， 下 面 是 使 用 的 例子 ， 
详细 信息 可 以 查看 http: /wiki.apache.org/hadoop/Hive/LanguageManual。 























(8) GROUP BY 


aail 

hive>FROM invites a INSERT OVERWRITE TABLE events SELECT 
a.bar, count (*) WHERE 

a.foo>0 GROUP BY a.bar; 

hive>INSERT OVERWRITE TABLE events SELECT a.bar, count (*) 
FROM invites a WHERE 

a.foo>0 GROUP BY a.bar; 


| mm S 
(9) JOIN 


让 
hive>FROM pokes tl JOIN invites t2 ON (tl.bar=t2.bar) INSERT 
OVERWRITE TABLE 
events SELECT tl.bar, tl.foo, t2.foo; 


PR 一 rr 一 一 一 一 一 一 一 一 下 
(10) 多 表 INSERT 


[| 

FROM src 

INSERT OVERWRITE TABLE destl SELECT src.*WHERE src.key<100 

INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE 
src.key>=100 and 

src. key<200 

INSERT OVERWRITE TABLE dest3 PARTITION (ds='2010-04-08', 
hr='12') SELECT src.key 

WHERE src.key>=200 and src.key<300 

INSERT OVERWRITE LOCAL DIRECTORY'/tmp/dest4.out'SELECT 
src.value WHERE src.key 

>=300; 
一 


(11) STREAMING 


f= 
hive>FROM invites a INSERT OVERWRITE TABLE events SELECT 
TRANSFORM (a.foo, a.bar) 
AS (oof, rab) USING'/bin/cat'WHERE a.ds>'2010-08-09'; 
| 





这 个 命令 会 将 数据 输入 给 Map 操 作 (通过 /bin/cat 命 令 ) ， 同 样 也 可 以 将 数据 流 式 输入 给 
Reduce 操 作 。 

















11.3.4 Hive QL 使 用 实例 














下 面 我 们 通过 两 个 例子 对 Hive QL 的 使 用 方法 进行 介绍 ， 从 中 可 以 看 到 它 与 传统 SQL 语 








句 的 异 


可 
Ir 























首先 创建 表 ， 并 且 使 用 tab 空 格 定义 文本 格式 : 














二 一 


CREATE TABLE 
userid INT, 

movieid INT, 
rating INT, 

unixtime STR 
ROW FORMAT D: 
FIELDS TERMI 
STORED AS TE 


u_data 人 


ING) 
ELIMITED 
NATED BY'\t' 
XTFILE; 


ee | 


然后 下 载 数据 文本 文件 并 解压 ， 代 码 如 下 : 





二 == 一 了 
wget http: //www.grouplens.org/system/files/ml-data.tar 0.gz 


tar xvzf ml- 


data.tar__0.gz 


一 


将 文件 加 载 到 表 上 





PP， 代码 如 下 : 


一 


LOAD DATA LO 
OVERWRITE IN 
Count the nu 
SELECT COUNT 
需要 使 用 COUNT (1) 
COUNT (*) 

















CAL INPATH'ml-data/u.data' 

TO TABLE u data; 

mber of rows in table u_data: 

2 FROM u_data; // 由 于 版 本 问题 ， 如 果 此 处 出 现 错误 ， 你 可 能 

















一 








下 面 可 以 基于 该 表 进行 一 些 复杂 的 数据 分 析 操 作 ， 此 处 我 们 使 用 Python 语 言 ， 首 先 创 建 
Python 脚 本 ， 如 代码 清单 11-4 所 示 。 














代码 清单 11-4 weekday_mapperpy 脚 本 文件 


| 
import sys 
import datetime 
for line in sys.stdin: 
line=line.strip © 
userid, movieid, rating, unixtime=line.split ('\t') 
weekday=datetime.datetime.fromtimestamp (float (unixtime) ) .is 
print'\t'.join ([userid, movieid, rating, str (weekday) ]) 
l 






































使 用 如 下 mapper 脚 本 调用 weekday _mapperpy 脚本 进行 操作 。 


[| 
CREATE TABLE u data new ( 
userid INT, 
movieid INT, 
rating INT, 
weekday INT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY'\t'; 
add FILE weekday mapper.py; 
INSERT OVERWRITE TABLE u_data_new 
SELECT 
TRANSFORM (userid, movieid, rating, unixtime) 
USING'python weekday _mapper.py' 
AS (userid, movieid, rating, weekday) 
FROM u_data; 
SELECT weekday, COUNT (*) 
FROM u_data_new 
GROUP BY weekday; 


—_—_—_—_—_—_—_—_—_—_—_—_—_COCOCOCOOO——O8COCOCOCOOCOOOOOO | 


2.Apache 网 络 日 志 数据 (Weblog) 














可 以 定制 Apache 网 络 日 志 数 据 格式 ， 不 过 一 般 管 理 者 都 使 用 默认 的 格式 。 对 于 默认 设置 
的 Apache Weblog 可 以 使 用 以 下 命令 创建 表 : 


























一 和 
add jar../build/contrib/hive_contrib.jar; 
CREATE TABLE apachelog ( 
host STRING, 
identity STRING, 
user STRING, 


time STRING, 

request STRING, 

status STRING, 

size STRING, 

referer STRING; 

agent STRING) 

ROW FORMAT 
SERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' 

WITH SERDEPROPERTIES ( 

"input.regex"="((*]*) C£*]*) CATA GANEAN INNIS 
CRETE INT ace ea i 

CATOIA ETORT E A Ce KLE NN CLAN 
PAN ARID. Doms 

"output. format.string"="S1$s%2$s%3$st4$st5$st6$ss7$st8SssIss" 

) 

STORED AS TEXTFILE; 


= 


更 多 内 容 可 以 查看 http: //issues.apache.org/jira/browse/HIVE-662。 





11.4 Hive 网 络 (Web UD 接口 














通过 Hive 的 网 络 接口 可 以 更 方便 、 更 直观 地 操作 ， 特 别 是 对 刚 接触 Hive 的 用 户 。 下 面 看 
看 网 络 接口 具有 的 特性 。 











(1) 分 离 查询 的 执行 


在 命令 行 (CLI) 下， 要 执行 多 个 查询 就 要 打开 多 个 终端 ， 而 通过 网 络 接口 ， 可 以 同时 
执行 多 个 查询 ， 网 络 接口 可 以 在 网 络 服务 器 上 管理 会 话 (session) 。 

















(2) 不 用 本 地 安装 Hive 




















户 不 需要 本 地 安装 Hive 就 可 以 通过 网 络 浏览 器 访问 Hive 并 进行 操作 。 如 果 想 通过 Web 
与 Hadoop 及 Hive 交 互 ， 那 么 需要 访问 多 个 端口 。 而 一 个 远程 或 VPN 的 用 户 只 需要 访问 Hive 网 
络 接口 所 使 用 的 0.0.0.0 tcp/9999。 






























































11.4.1 ” Hive 网络 接口 配置 




















使 用 Hive 的 网 络 接口 需要 修改 配置 文件 hive-site.xm1l。 通 常 不 需要 额外 地 编辑 默认 的 配置 
文件 ， 如 果 需 要 编辑 ， 可 参照 以 下 代码 进行 : 








| 

<property> 

<name>hive.hwi.listen.host</name> 

<value>0.0.0.0</value> 

<description>This is the host address the Hive Web Interface 
will listen on</ 

description> 

</property> 

<property> 

<name>hive.hwi.listen.port</name> 

<value>9999</value> 

<description>This is the port the Hive Web Interface will 
listen on</ 

description> 

</property> 

<property> 


<name>hive.hwi.war.file</name> 

<value>${HIVE_HOME}/lib/hive_hwi.war</value> 

<description>This is the WAR file with the jsp content for 
Hive Web Interface</ 

description> 

</property> 


一 
在 配置 文件 中 ， 监 听 端 口 默认 是 9999， 也 可 以 通过 hive 配 置 文件 对 端口 进行 修改 。 当 配 
置 完成 后 ， 我 们 可 以 通过 hive--service hwi 命 令 开启 服务 。 有 具体 操作 如 下 所 示 : 





EE 

hive--service hwi 

12/05/17 20: 02: 26 INFO hwi.HWIServer: HWI is starting up 

12/0 5/1720: 02:2 TENO moit tba y rog Logg 
ingtoorg.sl1lf4j.impl. 

Log4jLoggerAdapter (org.mortbay.log) via 
org.mortbay.log.S1f4jLog 

12/05/17 20: 02: 27 INFO mortbay.log: jetty-6.1.26 

12/05/17 20: 02: 28 INFO mortbay.log: 
Extract/home/hadoop/hadoop-1.0.1/hive-0.8.1/ 

lib/hive-hwi-0.8.1.war 

m9wzki/webapp 

12/05/17 20: 02: 29 INFO mortbay.log: Started 
SocketConnector@0.0.0.0: 9999 


和 RE 


这 样 我 们 通过 浏览 器 访问 网 络 接口 的 地 址 : http: /masterIP: 9999hwi 即 可 ， 如 图 11-2 所 
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图 11-2 Hive 的 网 络 接口 (WebUI) 

















可 以 看 到 Hive 的 网 络 接口 拉 近 了 用 户 和 系统 的 距离 。 我 们 可 以 通过 网 络 直接 创建 会 话 ， 
并 进行 查询 。 用 户 界 面 和 功能 展示 非常 直观 ， 适 合 刚 接触 到 Hive 的 用 户 。 


E 




































































11.4.2 Hive 网 络 接口 操作 实例 

















下 面 我 们 使 用 Hive 的 网 络 接口 进行 简单 的 操作 。 








从 图 11-2 中 可 以 看 出 ，Hive 的 网 络 操作 接口 包含 数据 库 及 表 信 息 查询 、Hive 查 询 、 系 统 
诊断 等 功能 ， 下 面 分 别 对 其 进行 介绍 。 
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1. 数 据 库 及 表 信 息 查询 

















单 击 Browse Schema 可 以 查看 当前 Hive 中 的 数据 库 ， 界 面 中 显示 的 是 当前 可 以 使 用 的 数 
据 库 信息 ， 只 包含 一 个 数据 库 (default) ; 再 单 击 default， 就 可 以 看 到 default 数 据 库 中 包含 
的 所 有 表 的 信息 了 ， 如 图 11-3 所 示 。 



































default Table List 


Authooze Name. defauk 
Browse Schemas Deecnphom: Defauk Hive database 
Create Sasson page view 


Diagnostics 
List Sesaons 


hesthesedavertable 
p3 dwa 





图 11-3 Hive 数据 库 表 





在 图 11-3 中 ， 选 择 某 一 个 具体 的 数据 库 就 可 以 直接 浏览 该 数据 库 的 模式 信息 了 。 以 代码 
清单 11-3 所 创建 的 影片 评分 表 表 为 例 ， 图 11-4 为 该 表 的 模式 信息 。 
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图 11-4 u3_data 表 模式 


2.Hive 查 询 


在 进行 Hive 查 询 之 前 首选 创建 一 个 会 话 (Session〉。 在 创建 完 会 话 之 后 ， 我 们 可 以 通过 
List Session 链 接 列 出 所 有 的 Session。 当 Hive 重 启 后 ，Session 信 息 将 全 部 丢失 。 会 话 与 认证 
(Authorize) 是 相互 关联 的 。 在 创建 一 组 会 话 之 后 ， 我 们 可 以 通过 Authorize 链 接 创 建 该 组 的 
认证 信息 。 认 证 信息 包括 用 户 和 组 。 某 组 会 话 的 用 户 和 组 被 指定 后 将 不 能 改变 。 可 以 通过 认 
证 来 启用 不 同 的 会 话 组 。 










































































下 面 通过 图 11-5 具 体 介 绍 如 何 使 用 创建 的 会 话 进行 Hive 数 据 查 询 操作 。 














Manage Session Br sexsionl 


Sesan HeNT7 Recess) 
Sesion Disgrestics: Tl- easel 
Re Pence: 


5 Keserr2l 
Searon Pestii Backat [peraa 


Revit Fle 
Eam Fib 





sec. hadoop.Job.ogi=, ? set user.nase= } 


Sibani Moie? 





Stei Qan? 
Qury Patur Codie 





图 11-5 会 话 管理 界面 





























如 图 11-5 所 示 ， 用 户 可 以 在 Query 窗口 中 输入 查询 语句 。 我 们 在 用 户 框 中 输入 如 下 代码 
来 查看 操作 结果 。 此 时 需要 指定 Result File CERF) 并 将 Start Query (开始 查询 ) 选项 置 
为 YES。 




















一 
select*from ul data limit 5; 


| 











单 击 View File (查看 文件 ) ， 操 作 结果 如 图 11-6 所 示 。 
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图 11-6 操作 结果 











通过 WebUI 也 可 以 执行 复杂 的 查询 ， 但 是 这 样 做 的 缺点 是 用 户 不 了 解 查询 的 状态 ， 交 互 
能 力 较 差 。 当 查询 所 需 时 间 较 长 的 时 候 用 户 需 要 一 直 等 待 操作 的 结果 。 









































11.5 Hive 的 JDBC 接 











通过 上 面 的 介绍 我 们 知道 ， 用 户 可 以 使 用 命令 行 接口 《CLI) 和 Hive 进 行 交互 ， 也 可 以 
使 用 网 络 接口 《Web UI) 和 Hive 进 行 交 互 。 本 节 我 们 将 具体 介绍 JDBC 接 口 。 如 果 是 以 集群 
中 的 节点 作为 客户 端 来 访问 Hive， 则 可 以 直接 使 用 jdbc: hive: //。 对 于 一 个 非 集群 节点 的 客 
户 端 来 说 ， 可 以 使 用 jdbc: hive: //host: portdbname 来 进行 访问 。 


































































































为 了 方便 用 户 的 使 用 ， 下 面 我 们 介绍 如 何 使 用 Eclipse 进行 程序 的 开发 。 




















不 境 配 置 
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11.5.1 Eclipse: 














首先 在 Eclipse 中 创建 一 个 Java 工 程 ， 例 如 HiveTest。 创 建 完 Java 工 程 后 需要 修改 工程 的 库 
文件 ， 添 加 编译 Hive 程 序 所 必需 的 JAR 包 。 





Hive 工 程 依赖 于 Hive JAR 包 、 日 志 JAR 包 。 由 于 Hive 的 很 多 操作 依赖 于 MapReduce 程 
序 ， 因 此 Hive 工 程 中 还 需要 引入 Hadoop 包 。 在 创建 完 Hive 工 程 后 ， 我 们 通过 引入 外 部 包 添加 
Hive 依 赖 包 。 在 Hive 工 程 上 点 击 右键 ， 选 择 : “Properties" 一 “Java Build 
Path "一 “Libraries" 一 “Add External Jars"， 然 后 选择 所 需 的 Jar 文 件 。 如 图 11-7 所 示 为 添加 好 
的 Jar 包 。 




















> mA JRE System Library | lavaSe-1 6] 
Y mi Referenced Libraries 
"局 FiveexecTB1jar /home/hedod 


» BS hvejdbc-0.6.1j0r" /home/ hadod 
> Ñ hivemetastore-0.8.1jar- homey 
» is hiveservice-0.8 1 jar -/horne/shad 
+e Gbfb303 jar - /home/hadoop/had 
> B bog4j-1.2.15,jar - /home/hadoop/ 
r E hadoopcore-1.0.1.jar- /home/ 

* Š commonsogging-1.0.4,jar - ho 
* R sifa-apet.o. 1jar-/home/hadoo 
» BS siFa}iog4j12-1.6.1 jar - /home/hs 





图 11-7 Hive 工 程 依赖 包 

















在 完成 上 述 操 作 后 便 可 以 使 用 Eclipse 编 写 Hive 程 序 了 。 完 成 之 后 ， 选 择 Run as Java 
Application 即 可 。 








11.5.2 ”程序 实例 


























在 使 用 JDBC 链 接 Hive 之 前 ， 首 先 需 要 开启 Hive 监 听 用 户 的 链接 。 开 启 Hive 服 务 的 方法 如 
下 所 示 : 
es SS 


hive--service hiveservice 

Service hiveservice not found 

Available Services: cli help hiveserver hwi jar lineage 
metastore rcfilecat 

hadoop@master: ~/hadoop-1.0.1/hive-0.8.1/bin/ext$hive-- 
service hiveserver 

Starting Hive Thrift Server 

Hive history 
file=/tmp/hadoop/hive_job_log_hadoop_201205150632_559026727.txt 


| 
































下 面 是 一 个 使 用 Java 编 写 的 JDBC 客 户 端 访 问 的 代码 样 例 : 


| annn | 
package cn.edu.rnc.cloudcomputing.book.chapter11; 
import java.sql.SQLException; 
import java.sql.Connection; 
import java.sql.ResultSet; 
import java.sql.Statement; 
import java.sql.DriverManager; 
public class HiveddbcClient{ 
/** 
*@param args 
*@throws SQLException 
+y 
public static void main (String[]args) throws SQLException{ 
// 注 册 JDBC 驱 动 
try{ 
Class.forName ("org.apache.hadoop.hive.jdbc.HiveDriver") ; 
}catch (ClassNotFoundException e) { 
//TODO Auto-generated catch block 
e.printStackTrace () ; 
System.exit (1); 


} 

// 创 建 连接 

Connection con=DriverManager.getConnection ("jdbc: hive: // 
master: 10000/default", "", "") ; 














//statement 用 来 执行 SQL 语句 





Statement stmt=con.createStatement () ; 

/ /下面 为 Hive 测 试 语句 

String tableName="ul_data"; 

stmt.executeQuery ("drop table"+tableName) ; 
ResultSet res=stmt.executeQuery ("create table"+ttableName+" 
(userid int, "+ 

"movieid int, "+ 

"rating int, "+ 

"city string, "+ 

"viewTime string) "+ 

"row format delimited"+ 

"fields terminated by'\t'"+ 

"stored as textfile") ; // 创 建 表 

//show tables 语 句 

String sql="show tables"; 

System.out.println ("Running: "+sql+": ") ; 
res=stmt.executeQuery (sql) ; 

if (res.next () ) { 

System.out.println (res.getString (1) ); 

} 

//describe table 语 句 

sql="describe"+tableName; 

System.out.println ("Running: "+sql) ; 
res=stmt.executeQuery (sql) ; 

while (res.next O ) { 

System.out.println (res.getString (1) +"\t"+res.getString (2) ) 
} 

//load data 语 句 

String filepath="/home/hadoop/Downloads/u.data.new"; 
sql="load data local inpath'"+filepath+"'overwrite into table 
"+tableName; 

System.out .println ("Running: "+sql) ; 
res=stmt.executeQuery (sql) ; 

//select query: 选取 前 5 条 记录 
sql="select*from"+tableName+"limit 5"; 
System.out.println ("Running: "+sql) ; 
res=stmt.executeQuery (sql) ; 

while (res.next © ) { 

System.out .println (String.valueOf (res.getString (3) +"\t"+ 
res.getString (4) )); 

} 

//nive query: 统计 记录 个 数 

sql="select count (*) from"+tableName; 
System.out.println ("Running: "+sql) ; 
res=stmt.executeQuery (sql); 

while (res.next © ) { 

System.out.println (res.getString (1) ); 


从 上 述 代码 可 以 看 出 ， 在 进行 查询 操作 之 前 需要 做 如 下 工作 : 





1) 通过 Class.forName ("org.apache.hadoop.hive.jdbc.HiveDriver") ; 语句 注册 Hive 驱 
动 ; 


2) 通过 Connection con=DriverManager.getConnection ("jdbc: hive: //master: 


10000/default", "", ") ; 语句 建立 与 Hive 数 据 库 的 连接 。 





在 上 述 操 作 完 成 之 后 便 可 以 正常 进行 操作 了 。 上 述 操作 结果 为 : 





= = 一 

Running: show tables: 

page_view 

testhivedrivertable 

ul_data 

u2_data 

u3_data 

Running: describe ul_data 

userid int 

movieid int 

rating int 

city string 

viewtime string 

Running: load data local 
inpath'/home/hadoop/Downloads/u.data.new'overwrite into 

table ul_data 

Running: select*from ul_data limit 10 

3 北京 

3 北京 

1 石家庄 

2 石家庄 

1 苏州 

Running: select count (*) from ul data 

100000 


| 


当前 的 JDBC 接 口 只 支持 查询 的 执行 及 结果 的 获取 ， 并 且 支 持 部 分 元 数据 的 读 取 。Hive 支 


持 的 接口 除了 JDBC 外 ， 还 有 Python、PHP、ODBC 等 。 读 者 可 以 访问 
http: //wiki.apache.org/hadoop/Hive/HiveClient#JDBC 查 看 相关 信息 。 


11.6 Hive 的 优化 





Hive 针 对 不 同 的 查询 进行 优化 ， 其 优化 过 程 可 以 通过 配置 进行 控制 。 本 节 我 们 将 介绍 部 
分 优化 策略 及 优化 控制 选项 。 


1. 列 裁剪 (Column Pruning) 











在 读 取 数据 时 ， 只 读 取 查 询 中 需要 用 到 的 列 ， 而 忽略 其 他 列 ， 例 如 如 下 查询 ; 


OA 人 ~ 
SELECT a, b FROM t WHERE e<10; 


| 





























其 中 ， 对 于 表 t 包 含 的 5 个 列 (a, b，c, d，e) ， 经 过 列 裁剪 ， 列 c 和 d 将 会 被 忽略 ， 执 行 中 
只 会 读 取 a, b，e 列 。 要 实现 列 裁 前 ， 需 要 设置 参数 hive.optimize.cp=true。 





2. 分 区 裁剪 〈Partition Pruning) 





在 查询 过 程 中 减少 不 必要 的 分 区 ， 例 如 如 下 查询 : 


一 

SELECT*FROM (SELECT cl, COUNT (1) 

FROM T GROUP BY cl) subq 

WHERE subq.prtn=100; 

SELECT*FROM T1 JOIN 

(SELECT*FROM T2) subq ON (T1.cl=subq.c2) 

WHERE subq.prtn=100; 
[ee | 








经 过 分 区 裁剪 优化 的 查询 ， 会 在 子 查 询 中 就 考虑 subq.prtn=100 条 件 ， 从 而 减少 读 入 的 分 


区 数目 。 要 实现 分 区 裁剪 ， 须 设置 hive.optimize.pruner=true。 























当 使 用 有 Join 操 作 的 查询 语句 时 ， 有 一 条 原则 : 应 该 将 条 目 少 的 表 / 子 查询 放 在 Join 操 作 
符 的 左边 。 原 因 是 在 Join 操 作 的 Reduce 阶 段 ，Join 操 作 符 左边 表 中 的 内 容 会 被 加 载 到 内 存 中 
将 条 目 少 的 表 放 在 左边 可 以 有 效 减少 发 生 内 存 溢出 OOM: Out of Memory) 的 几率 。 























对 于 一 条 语句 中 有 多 个 Join 的 情况 ， 如 果 Join 的 条 件 相同 可 以 进行 优化 ， 比 如 如 下 查询 : 





一 
INSERT OVERWRITE TABLE pv_users 
SELECT pv.pageid, u.age FROM page_view p 
JOIN user u ON (pv.userid=u.userid) 
JOIN newuser x ON (u.userid=x.userid) 


5 
我 们 可 以 进行 的 优化 是 ， 如 果 Join 的 key 相同 ， 那 么 不 管 有 多 少 个 表 ， 都 会 合并 为 一 个 
MapReduce。 如 果 Join 的 条 件 不 相同 ， 比 如 : 


= 
INSERT OVERWRITE TABLE pv_users 
SELECT pv.pageid, u.age FROM page_view p 
JOIN user u ON (pv.userid=u.userid) 
JOIN newuser x on (u.age=x.age) ; 


一 


如 果 MapReduce 的 任务 数目 和 Join 操 作 的 数目 是 对 应 的 ， 那 么 上 述 查 询 和 以 下 查询 是 等 


INSERT OVERWRITE TABLE tmptable 
SELECT*FROM page_view p JOIN user u 
ON (pv.userid=u.userid) ; 

INSERT OVERWRITE TABLE pv_users 

SELECT x.pageid, x.age FROM tmptable x 
JOIN newuser y ON (x.age=y.age) ; 


二 一 


4.Map Join 操 作 


Map Join 操 作 无 须 Reduce 操 作 就 可 以 在 Map 阶 段 全 部 完成 ， 前 提 是 在 Map 过 程 中 可 以 访 
问 到 全 部 需要 的 数据 。 比 如 如 下 查询 : 





ee | 
INSERT OVERWRITE TABLE pv_users 
SELECT/*+MAPJOIN (pv) */pv.pageid, u.age 
FROM page_view pv 
JOIN user u ON (pv.userid=u.userid) ; 
ee | 


这 个 查询 便 可 以 在 Map 阶 段 全 部 完成 Join。 此 时 还 须 设 置 的 相关 属性 为 : 
hive.join.emit.inter-[=1000、hive.mapjoin.size.key=10000、hive.map- 
join.cache.numrows=10000。hive.join.emit.inter- 上 三 1000 属 性 定义 了 在 输出 Join 的 结果 前 ， 还 要 
判断 右 侧 进行 Join 的 操作 数 最 多 可 以 加 载 多 少 行 到 缓存 中 。 





5.Group By 操作 


进行 Group BY 操作 时 需要 注意 以 下 两 点 。 





性 


Map 端 部 分 聚合 。 事 实 上 ， 并 不 是 所 有 的 聚合 操作 都 需要 在 Reduce 部 分 进行 ， 很 多 聚合 
操作 都 可 以 先 在 Map 端 进行 部 分 聚合 ， 然 后 在 Reduce 端 得 出 最 终结 果 。 














这 里 需要 修改 的 参数 包括 : hive.map.aggr=true， 用 于 设 定 是 否 在 Map 端 进行 聚合 ， 默 认 
为 True。hive.groupby.mapaggr.checkinterval=100000， 用 于 设 定 在 Map 端 进行 聚合 操作 的 条 
目 数 。 




















有 数据 倾斜 〈 数 据 分 布 不 均匀 ) 时 进行 负载 均衡 。 此 处 需要 设 定 
hive.groupby.skewindata ， 当 选项 为 true 时 ， 生 成 的 查询 计划 会 有 两 个 MapRreduce 任 务 。 在 第 
一 个 MapReduce 中 ，Map 的 输出 结果 集合 会 随机 分 布 到 Reduce 中 ， 对 每 个 Reduce 做 部 分 聚合 
操作 并 输出 结果 。 这 样 处 理 的 结果 是 ， 相 同 的 Group By Key 有 可 能 被 分 发 到 不 同 的 Reduce 
中 ， 从 而 达到 负载 均衡 的 目的 ， 第 二 个 MapReduce 任 务 再 根据 预 处 理 的 数据 结果 按照 Group 
By Key 分 布 到 Reduce 中 〈 这 个 过 程 可 以 保证 相同 的 Group By Key 分 布 到 同一 个 Reduce 


中 ) ， 最 后 完成 最 终 的 聚合 操作 。 


























6. 合 并 小 文件 











H 


在 第 9 章 “HDFS 详 解 " 中 我 们 知道 ， 文 件数 目 过 多 会 给 HDFS 带 来 很 大 的 压力 ， 并 且 会 影 
响 处 理 的 效率 。 因 此 ， 我 们 可 以 通过 合并 Map 和 Reduce 的 结果 文件 来 消除 这 样 的 影响 。 需 要 
进行 的 设 定 有 以 下 三 个 : hive.merge.mapfiles=true， 设 定 是 否 合 并 Map 输 出 文件 ， 默 认为 
True; hive.merge.mapredfiles=false， 设 定 是 否 合并 Reduce 输 出 文件 ， 默 认为 False; 





























hive.merge.size.pertask=256*1000*1000， 设 定 合并 文件 的 大 小 ， 默 认 值 为 256 000 000. 





11.7 本 章 小 结 


本 章 我 们 主要 对 建立 在 Hadoop 之 上 的 数据 仓库 架构 Hive 进 行 了 详细 介绍 。 





首先 ， 介 绍 了 Hive 的 安装 和 配置 。 由 于 Hadoop 的 最 新 版 本 都 集成 了 Hive， 所 以 安装 很 简 
单 ， 只 需要 简单 修改 配置 文件 即 可 。 

















其 次 ， 着 重 介绍 了 Hive 的 类 SQL 语言 Hive QL， 通 过 学 习 Hive QL， 用 户 可 以 进行 类 似 传 
统 数 据 库 的 操作 。 我 们 可 以 看 到 Hive QL 有 别 于 传统 的 SQL 实 现 ， 但 是 它们 也 有 很 多 相似 之 
处 ，Hive QL 既 继承 了 传统 SQL 的 优势 ， 又 结合 了 Hadoop 文 件 系统 的 特性 。 
































最 后 ， 对 Hive 的 几 个 重要 接口 进行 了 介绍 ， 这 有 助 于 大 家 更 快 地 掌握 和 使 用 Hive， 并 且 
还 介绍 了 如 何 配置 Eelidse 环 境 编 写 Hive 程 序 。 对 管理 员 来 说 ， 本 章 还 给 出 了 Hive 的 优化 策 
略 ， 可 以 为 Hive 的 使 用 助 一 臂 之 力 。 
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12.1 HBase 简 介 


HBase 是 Apache 





Hadoop 的 数据 库 ， 能 够 对 大 数据 提供 随机 、 实 时 的 读 写 访问 功能 ， 具 


有 开源 、 分 布 式 、 可 扩展 及 面向 列 存 储 的 特点 。HBase 是 由 Chang 等 人 基于 Google 的 Bigtable 


[1] 开发 而 成 的 。HBase 的 目标 是 存储 并 处 理 大 型 的 数据 ， 更 具体 来 说 是 只 需 使 


配置 即 可 处 理由 成 千 上 





HBase 是 一 个 开源 


文件 系统 ， 也 可 以 使 

















的 健壮 性 ， 并 且 发 挥 HBase 处 理 大 数据 的 能 力 ， 使 


另外 ，HBase 存 储 


系 ， 但 又 不 是 简 简单 单 
详细 讲述 。HBase 存 储 





下 提供 了 存储 ， 向 上 提 





模型 来 并 行 处 理 大 规模 数据 ， 这 也 是 它 具 有 强大 性 能 


完美 地 结合 在 一 起 。 


万 的 行 和 列 所 组 成 的 大 数据 。 





的 、 分 布 式 的 、 多 版 本 的 、 面 向 列 的 存储 模型 。 它 可 以 直 
Hadoop 的 HDFS 文 件 存储 系统 。 不 过 ， 为 了 提高 数据 的 可 靠 性 和 系统 
HDEFS 作 为 文件 存储 系统 才 更 为 稳妥 。 

















的 映射 关系 。 除 此 之 外 它 还 具有 许多 其 人 





据 可 以 理解 为 一 


eS 














普通 的 硬件 

















楼 使 





本 地 





的 是 松散 型 数据 。 有 具体 来 说 ，HBase 存 储 的 数据 介 于 映射 
Qey/value) 和 关系 型 数据 之 间 。HBase 存 储 的 数 -种 key 和 value 的 映射 关 


的 特性 ， 我 们 将 在 本 章 后 面 





的 数据 从 逻辑 上 来 看 就 像 一 张 很 大 的 表 ， 关 
要 动态 地 增加 。 除 此 之 外 ， 每 个 单元 〈cell， 由 行 和 列 
多 个 版 本 《通过 时 间 惟 来 








FAME 
所 确定 的 位 置 ) 中 的 数据 又 可 以 具有 
区 别 ) 。 从 图 12-1 所 示 可 以 看 出 ，HBase 还 具有 这 样 的 特点 : 








供 了 运算 。 另 外 ， 在 HBase 之 上 还 可 以 使 




















的 数据 列 可 以 根据 需 





它 向 
Hadoop 的 MapReduce 计 算 


的 核心 所 在 。 它 将 数据 存储 与 并 行 计算 
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A 12-1 HBase 关 系 图 


下 面 列 举 一 下 HBase 所 具有 的 特性 : 





线性 及 模块 可 扩展 性 ; 
严格 一 致 性 读 写 ; 

可 配置 的 表 自 动 分 割 策略 ; 
RegionServer 自 动 故障 恢复 ; 

便利 地 备份 MapReduce 作 业 的 基 类 ; 
便于 客户 端 访问 的 Java API; 


为 实时 查询 提供 了 块 缓存 和 Bloom Filter; 


z| 


[通过 服务 器 端的 过 滤器 进行 查询 下 推 预测 ; 


提供 了 支持 XML、Protobuf 及 二 进 制 编码 的 Thrift 网 管 和 REST-ful 网 络 服务 ; 








可 扩展 的 JIRB (jruby-based) shell; 


支持 通过 Hadoop 或 JMX 将 度量 标准 倒 出 到 文件 或 Ganglia 中 。 











下 面 我 们 将 具体 介绍 HBase 的 特性 及 其 安装 、 配 置 、 使 用 的 方法 。 











[1] Google 论 文 : Bigtable: A Distributed Storage System for Structured Data 





12.2 HBase 的 基本 操作 


在 介绍 完 HBase 的 基本 特性 之 后 ， 本 节 将 首先 介绍 如 何 安装 HBase。 由 于 它 有 单机 、 伪 
分 布 、 全 分 布 三 种 运行 模式 ， 因 此 我 们 将 分 别 进行 讲解 。 在 安装 成 功 之 后 ， 再 介绍 如 何 对 
HBase 进 行 详 细 的 设置 ， 以 提高 系统 的 可 靠 性 和 执行 速度 。 








12.2.1 HBase 的 安装 











HBase 有 三 种 运行 模式 ， 其 中 单机 模式 的 配置 非常 简单 ， 几 乎 不 用 对 安装 文件 做 任何 修 
改 就 可 以 使 用 。 如 果 要 运行 分 布 式 模式 ，Hadoop 是 必 不 可 少 的 。 另 外 在 对 HBase 的 某 些 文件 
进行 配置 之 前 ， 还 需要 具备 以 下 先决 条 件 ; 
































1) Java: 需要 安装 Java 1.6.x 以 上 的 版 本 ， 推 荐 从 SUN 官 网 下 载 ， 下 载 地址 为 : 
http: Wwwwjava.com/download/。 在 Ubuntu 下 可 以 使 用 下 面 命令 安装 Java: 

















一 
sudo apt-get install sun-java6-jdk 


i 
具体 的 安装 过 程 前 述 章节 已 经 详细 讲 过 ， 这 里 不 再 次 述 。 














2) Hadoop: 由 于 HBase 架 构 是 基于 其 他 文件 存储 系统 的 ， 因 此 在 分 布 式 模式 下 安装 
Hadoop 是 必须 的 。 但 是 ， 如 果 运 行 在 单机 模式 下 ， 此 条 件 可 以 省 略 。 




















注意 ”安装 Hadoop 的 时 候 ， 要 注意 HBase 的 版 本 。 也 就 是 说 ， 需 要 注意 Hadoop 和 HBase 
之 间 的 版 本 关系 ， 如 果 不 匹配 ， 很 可 能 会 影响 HBase 系 统 的 稳定 性 。 在 HBase 的 lib 目 录 下 可 
以 看 到 对 应 的 Hadoop 的 JAR 文 件 。 默 认 情 况 下 ，HBase 的 lib 文 件 夹 下 对 应 的 Hadoop 版 本 相对 
稳定 。 如 果 用 户 想 要 使 用 其 他 的 Hadoop 版 本 ， 那 么 需要 将 Hadoop 系 统 安装 目录 hadoop-*.*.*- 
core.jar 文 件 和 hadoop-*.*.*-test.jar 文 件 复制 到 HBase 的 lib 文 件 夹 下 ， 以 奉 换 其 他 版 本 的 
Hadoop 文 件 。 
































另外 ， 如 果 读 者 想 要 对 HBase 的 数据 存储 有 更 好 的 了 解 ， 建 议 查看 关于 HDFS 的 更 多 详细 
资料 。 此 部 分 不 是 本 章 所 关注 的 内 容 ， 故 不 再 闭 述 。 











3) SSH: 需要 注意 的 是 ，SSH 是 必须 安装 的 ， 并 且 要 保证 用 户 可 以 SSH 到 系统 的 其 他 节 
点 (包括 本 地 节点 ) 。 因 为 ， 我 们 需要 使 用 Hadoop 来 管理 远程 Hadoop 和 HBase 守 护 进 程 。 
























































关于 其 他 外 部 条 件 ， 我 们 可 以 在 使 用 的 过 程 中 再 具体 配置 ， 详 细 内 容 见 12.2.2 节 。 下 面 
我 们 将 具体 介绍 HBase 在 三 种 模式 下 的 安装 过 程 。 














1. 单 机 模式 安装 





HBase 安 装 文件 默认 情况 下 是 支持 单机 模式 的 ， 也 就 是 说 将 HBase 安 装 文件 解压 后 就 可 
以 直接 运行 。 在 单机 模式 下 ，HBase 并 不 使 用 HDFS。 用 户 可 以 通过 下 面 的 命令 将 其 解压 : 
= 二 = 二 = 二 = 


tar xfz hbase-0.92.1.tar.gz 
cd hbase-0.92.1 


| | 



























































在 运行 之 前 ， 建 议 用 户 修改 ${HBase-Dir}/conf/hbase-site.xml 文 件 。 此 文件 是 HBase 的 配 
置 文件 ， 通 过 它 可 以 更 改 HBase 的 基本 配置 。 另 外 还 有 一 个 文件 为 nbpase-defaultxm1， 它 是 
HBase 的 默认 配置 文件 。 我 们 可 以 通过 这 两 个 文件 中 的 任意 一 个 来 修改 HBase 的 配置 参数 ， 

并 且 它 们 二 者 的 配置 方法 也 完全 相同 。 但 是 同样 一 个 参数 如 果 在 hbase-site.xml 中 配置 了 ， 那 
么 它 就 会 覆盖 掉 hbase-defaultxml 中 的 同一 个 配置 。 也 就 是 说 ， 同 样 一 个 配置 参数 ，hbase- 
site.xml 中 的 配置 将 发 挥 作 用 。 建 议 用 户 修改 hbase-site.xml 中 的 配置 ， 而 hbase-defaultxml 中 
的 配置 默认 保持 不 变 ， 这 样 当 hbase-site.xml 中 配置 错误 时 ， 其 默认 配置 可 以 保证 用 户 能 够 快 
速 地 对 Hbase 配 置 进 行 恢复 。 例如， 需要 修改 的 内 容 如 下 所 示 : 
人 


<configuration> 

<property> 

<name>hbase. rootdir</name> 

<value>file: ///tmp/hbase-${user.name}/hbase</value> 

</property> 

</configuration> 
pe 一- 





ray 




































































从 上 面 可 以 看 到 ， 默 认 情 况 下 HBase 的 数据 是 存储 在 根 目录 的 tmp 文 件 夹 下 的 。 熟 悉 
Linux 的 用 户 知道 ， 此 文件 夹 为 临时 文件 夹 。 也 就 是 说 ， 当 系统 重启 的 时 候 ， 此 文件 夹 中 的 内 
容 将 被 清空 。 这 样 用 户 保存 在 HBase 中 的 数据 也 会 丢失 ， 这 当然 是 用 户 不 想 看 到 的 事情 。 因 
此 ， 用 户 需要 将 HBase 数 据 的 存储 位 置 修改 为 自己 希望 的 存储 位 置 。 





































































































2. 伪 分 布 模式 安装 


伪 分 布 模式 是 一 个 运行 在 单个 节点 ( 单 台 机 器 ) 上 的 分 布 式 模式 ， 此 种 模式 下 HBase 所 
有 的 守护 进程 将 运行 在 同一 个 节点 之 上 。 由 于 分 布 式 模式 的 运行 需要 依赖 于 分 布 式 文件 系 
统 ， 因 此 此 时 必须 确保 HDFS 已 经 成 功 运行 。 用 户 可 以 在 HDFS 系 统 上 执行 Put 和 Get 操 作 来 验 
证 HDFS 是 否 安装 成 功 。 关 于 HDFS 集 群 的 安装 ， 请 读者 参看 其 他 章节 的 介绍 。 


















































一 切 准 备 就 绪 后 ， 我 们 开始 配置 HBase 的 参数 〈 即 配置 hbase-site.xml 文 档 ) 。 通 过 设 定 
hbase.rootdir 参 数 来 指定 HBase 的 数据 存放 位 置 ， 进 而 让 HBase 运 行 在 Hadoop 之 上 ， 如 图 12-1 
所 示 。 具 体 配 置 如 下 所 示 : 


= 
<configuration> 
<property> 
<name>hbase. rootdir</name> 
<value>hdfs: //localhost: 9000/hbase</value> 
<description> 此 参数 指定 了 HReion 服 务 器 的 位 置 ， 即 数据 存放 位 置 。 
</description> 
</property> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
<description 之 此 参数 指定 了 HLlog 和 Hfile 的 副本 个 数 ， 此 参数 的 设置 不 能 大 于 
HDFS 的 节点 数 。 伪 
分 布 模式 下 DataNode 只 有 一 台 ， 因 此 此 参数 应 设置 为 1 。 
</description> 
</property> 














</configuration> 


| | 


注意 ”hbase.rootdir 指 定 的 目录 需要 Hadoop 自 己 创建 ， 否 则 可 能 出 现 警 告 提 示 。 由 于 目 
录 为 空 ，HBase 在 检查 目录 时 可 能 会 报 所 需要 的 文件 不 存在 的 错误 。 


3. 完 全 分 布 模式 安装 





对 于 完全 分 布 式 HBase 的 安装 ， 我 们 需要 通过 hbase-site.xm1 文 档 来 配置 本 机 的 HBase 特 





性 ， 通 过 hbase-env.sh 来 配置 全 局 HBase 集 群 系统 的 特性 ， 也 就 
hbase-envsh 来 了 解 全 局 的 HBase 的 某 些 特性 。 另 外 ， 各 个 HBa 

















是 说 每 一 台 机 器 都 可 以 通过 
se 实例 之 间 需 要 通过 


ZooKeeper 来 进行 通信 ， 因 此 我 们 还 需要 维护 一 个 〈 一 组 ) ZooKeeper 系 统 。 


下 面 我 们 将 以 3 台 机 器 为 例 ， 介 绍 如 何 进行 配置 。3 台 机 器 的 hosts 配 置 如 下 所 示 : 
| 


10.77.20.100 master 
10.77.20.101 slavel 
10.77.20.102 slave2 


二 一 


假设 我 们 已 经 配置 完成 Hadoop/HDFS 和 ZooKeeper ||! ， 
(1) conf/hbase-site. xml 文 件 的 配置 


hbase. rootdir 和 hbase.cluster.distributed 两 个 参数 的 配置 对 于 


下 面 介 绍 HBase 的 配置 。 





FHBase 来 说 是 必需 的 。 我 们 通 


过 hbase.roodir 来 指定 本 台 机 器 HBase 的 存储 目录 ; 通过 hbase.clusterdistributed 来 说 明 其 运行 
模式 (true 为 全 分 布 模式 ，false 为 单机 模式 或 伪 分 布 模式 ) ; 另外 hbase.master 指 定 的 是 
HBase 的 master 的 位 置 ，hbase.zookeeper.quorum 指 定 的 是 ZooKeeper 和 集群 的 位 置 。 如 下 所 示 


为 示例 配置 文档 : 











S—-S=—SSSSSSSSSI 


<configuration> 


<property> 

<name>hbase. rootdir</name> 
</property> 

<property> 


<name>hbase.cluster.distributed</name> 


<value>true</value> 


<description> 指 定 HBase 运 行 的 模式 ; 

false: 单机 模式 或 伪 分 布 模式 

true: 完全 分 布 模式 

</description> 

</property> 

<property> 

<name>hbase.master</name> 

<value>hdfs: //master: 60000</value> 
<description> 指 定 Master 位 置 </description> 
</property> 

<property> 

<name>hbase. zookeeper.quorum</name> 
<value>master, slavel, slave2</value> 
<description>##€Zookeeper##f</description> 
</property> 





</configuration> 


(2) conf/regionservers 的 配置 


regionservers 文 件 列 出 了 所 有 运行 HBase RegionServer CHRegion Server 的 机 器 。 此 文件 
的 配置 和 Hadoop 的 slaves 文 件 十 分 类 似 ， 每 一 行 指定 一 台 机 器 。 当 HBase 启 动 的 时 候 ， 会 将 
此 文件 中 列 出 的 所 有 机 器 启动 ;同样 ， 当 HBase 关 闭 的 时 候 ， 也 会 同时 自动 读 取 文件 并 将 所 
有 机 器 关闭 。 








在 我 们 的 配置 中 ，HBase Master 及 HDFS NameNode 运 行 在 hostname 为 Master 的 机 器 上 ， 





HBase RegionServers 运 行 在 master、slave1 和 slave2 上 。 根 据 上 述 配 置 ， 我 们 只 需 将 每 台 机 器 
上 HBase 安 装 目录 下 的 confrregionservers 文 件 的 内 容 设置 为 : 


i 
master 
slavel 
slave2 


| | 


另外 ， 我 们 可 以 将 HBase 的 Master 和 HRegionServer 服 务 器 分 开 。 这 样 只 需 在 上 述 配置 文 
件 中 删除 master 一 行 即 可 。 





(3) ZooKeeper 的 配置 


完全 分 布 式 的 HBase 集 群 需要 ZooKeeper 实 例 运行 ， 并 且 需 要 所 有 的 HBase 节 点 能 够 与 
ZooKeeper 实 例 通信 。 默 认 情况 下 HBase 自 身 维护 着 一 组 默认 的 ZooKeeper 实 例 。 不 过 ， 用 户 
[以 配置 独立 的 ZooKeeper 实 例 ， 这 样 能 够 使 HBase 系 统 更 加 健壮 。 























z| 





conf/hbase-env. sh 配置 文档 中 HBASE_MANAGES ZK 的 默认 值 为 rue， 它 表示 HBase 使 
自身 所 带 的 ZooKeeper 实 例 。 但 是 ， 该 实例 只 能 为 单机 或 伪 分 布 模式 下 的 HBase 提 供 服 
务 。 当 安装 全 分 布 模式 时 需要 配置 自己 的 ZooKeeper 实 例 。 在 HBase-site.xml 文 档 中 配置 了 
base.zookeeperquorum 属性 后 ， 系 统 将 有 限 使 用 该 属性 所 指定 的 ZooKeeper 列 表 。 此 时 ， 若 
HBASE_MANAGES ZK 变量 值 为 rue， 那 么 在 启动 HBase 时 ，Hbase 将 把 ZooKeeper 作 为 自身 
的 一 部 分 运行 ， 其 对 应 进程 为 “HQuorumPeer”; 若 该 变量 值 为 false， 那 么 在 启动 HBase 之 前 
必须 首先 手动 运行 hbase.zookeeperquorum 属性 所 指定 的 ZooKeeper 集 群 ， 其 对 应 的 进程 将 显 


示 为 QuorumPeerMain。 





















































关于 Zookeeper 的 安装 与 配置 详 见 第 15 章 。 


若 将 ZooKeeper 作 为 HBase 的 一 部 分 来 运行 ， 那 么 当 关 闭 HBase 时 Zookeeper 将 被 自动 关 
闭 ， 和 否则 需要 手动 停止 ZooKeeper 服 务 。 





{|| Hadoop 和 ZooKeeper 的 配置 请 参看 本 书 相关 章节 。 





前 面 说 了 ，HBase 有 三 种 运行 模式 ， 不 同 模式 下 启动 或 停止 HBase 服 务 的 步骤 稍 有 不 
同 ， 另 外 还 有 一 些 需要 注意 的 事项 。 下 面 ， 我 们 将 分 情况 具体 讲解 如 何在 三 种 模式 下 启动 / 停 
止 HBase 服 务 。 





1. 单 机 模式 





单机 模式 下 直接 运行 下 面 的 命令 即 可 ， 
| 


start-hbase.sh 


一 
启动 成 功 后 用 户 可 以 看 到 如 图 12-2 所 示 的 界面 。 




















edoopOubunt w rt hbase. sh 
t ng g to /home/hadoop/Down loads /hbas /hbsse-hadoap-master-ebuntu_out 


7g r, 
0opekbuntu--~$ jps 





图 12-2 启动 HBase 


从 图 中 可 以 看 出 ，HBase 首 先 启动 成 功 后 ， 通 过 jps 命 令 可 以 查看 到 了 Master 的 进程 。 要 
停止 HBase 服 务 ， 直 接 在 终端 中 输入 下 面 的 命令 即 可 ; 
二 一 


stop-hbase.sh 


CC 人 CC 人 CC 人 | 
在 停止 过 程 中 用 户 会 看 到 如 图 12-3 所 示 的 界面 。 
































hadoop@ubuntu:-$ stop-hbase.sh 











图 12-3 停止 HBase 











下 面 我 们 查看 HBase 的 存储 目录 ， 可 以 看 到 关于 HBase 的 数据 如 图 12-4 所 示 : 











hadoop@ubunt 
dbase. id hbase. version 
st 


haddoopeut 





图 12-4 HBase 数 据 存储 目录 


2. 伪 分 布 模式 











于 伪 分 布 模式 的 运行 基于 HDFS， 
HDFS 可 以 使 用 如 下 命令 : 


Ea 


此 在 运行 HBase 之 前 首先 需要 启动 HDFS。 启 动 



































start-dfs. s 


详细 信息 参见 第 9 章 的 内 容 。 











这 之 后 的 其 他 步骤 与 单机 模式 相同 ，HBase 启 动 成 功 后 ， 可 以 通过 jps 查 看 此 时 系统 java 
进程 ， 如 下 图 12-5 所 示 。 























X 





12-5 擅 分 布 模式 HBase 的 启动 








3. 完 全 分 布 模式 


完全 分 布 模式 与 伪 分 布 模式 相同 ， 在 运行 HBase 之 前 需要 保证 HDFS 已 经 成 功 启动 。 此 
时 ， 只 需要 在 NameNode 〈 即 HBase Master) 上 运行 start-hbase.sh 即 可 。HBase 的 启动 顺序 














为 : HDFS->ZooKeeper->HBase。 因 此 我 们 首先 在 运行 ZooKeeper 的 机 器 上 启动 ZooKeeper 
服务 。 运 行 如 下 命令 : 


ee | 
zkServer.sh start 
二 = 一 = 





ZooKeeper 运 行 成 功 后 ， 机 器 上 会 出 现 QuorumPeerMain 进 程 。 图 12-6 所 示 为 全 分 布 模式 
HBase 的 启动 过 程 ， 启 动 成 功 后 通过 JPS 命 令 可 以 查看 运行 的 QuorumPeerMain 进 程 。 











hadooperester:~s$ start-hbase, sh 
starting master, Logging to /hose/hadoop/hadeep-1.6.1/hhase-8, 92. 1/Logs/hbase-h 
doop-master-sester, out 

el: starting regi - 1 /hadoop-1.¢.1/hbase-6 


jadoop- 1.¢.1/hase-6 
eglonserver, Logging p/hadoop-1.0.1/Mase-@.¢ 


/hbase-hagoop gionserver - 
$ ips 


Waster 
Ips 
QuorumPrertain 
NaneNode 
ianSerwer 





图 12-6 完全 分 布 模式 HBase 的 启动 


进入 HBase Shell， 输 入 status 命 令 ， 若 看 到 如 下 结果 ， 证 明 HBase 安 装 成 功 。 


| 
hbase (main) : 001: 0>status 
3 servers, 0 dead, 0.6667 average load 


天 一 
另外 ， 当 HBase 运 行 后 ， 通 过 jps 命 令 可 以 查看 系统 进程 : 在 Hbase 配 置 文件 一 

Tegionservers 对 应 的 机 器 上 将 会 出 现 HRegionServer 进 程 ; 在 HBase 配 置 文件 一 hbase-site.xml 

对 应 的 Hbase.master 对 应 的 机 器 将 出 现 HMaster 进 程 ， 在 HBase 配 置 文件 一 hbase-site.xm1 对 应 





的 hbase.zookeeperquorum 机 器 列表 将 出 现 QuorumPeerMain/HQuorumPeer 进 程 。 


12.2.3 HBase Shell 


























HBase 为 用 户 提供 了 一 个 非常 方便 的 使 用 方式 ， 我 们 称 之 为 HBase Shell. 























HBase Shell 提 供 了 大 多 数 的 HBase 命 令 ， 通 过 HBase Shell 用 户 可 以 方便 地 创建 、 删 除 及 
修改 表 ， 还 可 以 向 表 中 添加 数据 、 列 出 表 中 的 相关 信息 等 。 


























在 启动 HBase 之 后 ， 用 户 可 以 通过 下 面 的 命令 进入 HBase Shell 之 中 : 


二 一 


hbase shell 


[ee | 


成 功 进 入 之 后 ， 用 户 会 看 到 图 12-7 所 示 的 界面 。 
































list of supported commands 


2910 


n: 28. r965666, Mon Jul 2:34:48 POT 2 
hbase( sain): 881: $ 





图 12-7 HBase Shell 





进入 HBase Shell， 输 入 help 之 后 ， 可 以 获取 HBase Shell 所 支持 的 命令 ， 如 表 12-1 所 示 。 


表 12-1 HBase Shell 命令 














HBase Shell 命令 摘 述 
alter FEMA MK (Column Family) Bist 
count 统计 表 中 行 的 数量 
create 创建 表 
describe 显示 表 相 关 的 详细 信息 































delete A HRM CTH. fe. ABR. 5 ob t a E ial RA FD 
deleteall 行 的 所 有 元 素 值 

disable 

drop 

enable 

exists 测试 表 是 否 存在 





退出 HBase Shell 




















get 获 到 行 或 单元 “cell) 的 值 
iner 增加 指定 表 、 行 或 列 的 值 
list 列 出 HBase 中 存在 的 所 有 表 
put 向 指定 的 表单 元 添加 值 
tools 列 出 HBase 所 支持 的 工具 




















scan SIL HF ZEA EAH HE SMC A MS NIT LPC 
status HBase 集群 的 状态 信息 
shutdown 关闭 HBase 集群 “与 exit 不同》 
truncate 重新 创建 指定 表 

version 返 同 HBase 版 本 信息 








需要 注意 shutdown 操 作 与 exit 操 作 之 间 的 不 同 : shutdown 表 示 关 闭 HBase 服 务 ， 必 有 
启动 HBase 才 可 以 恢复 ;， exit 只 是 退出 HBase shell， 退 出 之 后 完全 可 以 重新 进入 。 






































下 面 ， 我 们 将 详细 介绍 常用 的 HBase 命 令 及 其 使 用 方法 。 











(1) create 























create 用 于 通过 表 名 及 用 逗号 分 隔 开 的 列 族 信息 来 创建 表 ， 操 作 如 下 : 

















1) 形式 一 : 


ee | 
hbase>create'tl', {NAME=>'f1', VERSIONS=>5} 


ee | 


2) 形式 二 : 


e 
hbase>create't1', {NAME=>'f1'}, {NAME=>'f2'}, {NAME=>'f3'} 
hbase># 


| 
上 面 的 命令 可 以 简写 为 下 面 所 示 的 格式 : 


ee | 
hbase>create'tl', 'fl', 'f2', 'f3' 
二 


3) 形式 三 : 


| | 
hbase>create't1', {NAME=>'f1', VERSIONS=>1, TTL=>2592000, 
BLOCKCACHE=>true} 


5 








下 面 以 NAME=>'f1” 为 例 具 体 说 明 ， 其 中 ， 列 族 参数 的 格式 是 ， 箭 头 左 侧 为 参数 变 
量 ， 右 侧 为 参数 对 应 的 值 ， 并 用 “= > ”分 开 。 











i 














(2) list 


通过 list 命 令 列 出 所 有 HBase 中 包含 的 表 的 名 称 ， 操 作 如 下 : 





一 
hbase (main): 011: 0>list 
hbase_tb 
test 
2 row (s) in 0.0160 secondshbase>list 


和 ee 


(3) put 














put 用 于 向 指定 的 HBase 表 单元 添加 值 ， 例 如 ， 向 表 t1 的 行 r1 、 列 c1: 1 添加 值 v1， 并 指定 
时 间 惟 为 ts 的 操作 如 下 : 











| 
hbase>put'tl', 'rl', 'cl: 1', 'vl', ts 
(= 


(4) scan 

















scan 用 于 获取 指定 表 的 相关 信息 ， 与 create 命 令 类 似 ， 可 以 通过 逗号 分 隔 的 命令 来 指定 
扫描 参数 。 





例如 ， 获 取 表 test 的 所 有 值 的 操作 如 下 : 


| 
hbase (main) : 001: 0>scan'test' 
ROW COLUMN+CELL 
rl column=cl: 1, timestamp=1295692753859, value=valuel-1/1 
rl column=cl: 2, timestamp=1295692662360, value=valuel-1/2 
rl column=cl: 3, timestamp=1297476019872, value=valuel-1/3 
rl column=c2: 1, timestamp=1297475967537, value=valuel-2/1 


获取 表 test 的 c1 列 的 所 有 值 的 操作 如 下 : 


| 
hbase (main) : 002: 0>scan'test', {COLUMNS=>'cl'} 
ROW COLUMN+CELL 
rl column=cl: 1, timestamp=1295692753859, value=valuel-1/1 
rl column=cl: 2, timestamp=1295692662360, value=valuel-1/2 
rl column=cl: 3, timestamp=1297476019872, value=valuel-1/3 
r2 column=cl: 1, timestamp=1297476064414, value=value2-1/1 
二 一 


2row (s) in 0.0100 seconds 


获取 表 test 的 c1 列 的 前 一 行 的 所 有 值 的 操作 如 下 : 


_ | 
hbase (main) : 012: 0>scan'test', {COLUMNS=>'cl1', LIMIT=>1} 
ROW COLUMN+CELL 
rl column=cl: 1, timestamp=1295692753859, value=valuel-1/1 
rl column=cl: 2, timestamp=1295692662360, value=valuel-1/2 
rl column=cl: 3, timestamp=1297476019872, value=valuel-1/3 
1 row (s) in 0.0120 seconds 


一 


(5) get 








get 角 于 获取 行 或 单元 的 值 。 此 命令 可 以 指定 表 名 、 行 值 ， 以 及 可 选 的 列 值 和 时 间 戳 。 














获取 表 test 行 r1 的 值 的 操作 如 下 : 


hbase (main) : 002: 0>get'test', 'r1' 

COLUMN CELL 

cl: 1 timestamp=1295692753859, value=valuel-1/1 
cl: 2 timestamp=1295692662360, value=valuel-1/2 
cl: 3 timestamp=1297476019872, value=valuel-1/3 
c2: 1 timestamp=1297475967537, value=valuel-2/1 
c2: 2 timestamp=1297476039968, value=valuel-2/2 
5 row (s) in 0.0450 seconds 


Eee 
获取 表 test 行 r1 列 c1: 1 的 值 的 操作 如 下 : 


| TE | 
hbase (main) : 005: 0>get'test', 'rl', {COLUMN=>'c1: 1'} 
COLUMN CELL 
cl: 1 timestamp=1295692753859, value=valuel-1/1 
1 row (s) in 0.0050 seconds 


ee | 

需要 注意 的 是 ，COLUMN 和 COLUMNS 是 不 同 的 ，scan 操 作 中 的 COLUMNS 指 定 的 是 表 
的 列 族 ，get 操 作 中 的 COLUMN 指 定 的 是 特定 的 列 ，COLUMN 的 值 实质 上 为 “ 列 族 +: + 列 修 
饰 符 ”。 























另外 ， 在 shell 中 ， 常 量 不 需要 用 引号 括 起 来 ， 但 三 进 制 的 值 需要 用 双 引 号 括 起 来 ， 而 其 
他 值 则 用 单 引 号 括 起 来 。HBase Shell 的 常量 可 以 通过 在 shell 中 输入 “Object.constants” 命 令 来 
查看 。 
























































代码 清单 12-1 所 示 是 一 个 使 用 HBase Shell 操 作 的 具体 例子 。 








代码 清单 12-1 HBase Shell 操 作 


| 
hbase (main) : 004: 0>create'test', 'cl', 'c2' 
0 row (s) in 1.0620 seconds 
hbase (main) : 005: 0>list 


test 
1 row (s) in 0.0090 seconds 


hbase (main) : 006: O0>put'test', 'rl', 'cl: 1', 'valuel-1/1' 
0 row (s) in 0.0050 seconds 
hbase (main) : 007: O>put'test', 'rl', 'cl: 2', 'valuel-1/2' 
0 row (s) in 0.0060 seconds 
hbase (main) : 008: 0>put'test', 'rl', 'cl: 3', 'valuel-1/3' 
0 row (s) in 0.0110 seconds 
hbase (main) : 009: O0>put'test', 'rl', 'c2: 1', 'valuel-2/1' 


0 row (s) in 0.0040 seconds 

hbase (main) : 010: O>put'test', 'rl', 'c2: 2', 'valuel-2/2' 
0 row (s) in 0.0030 seconds 

hbase (main): 011: 0>put'test', 'r2', 'cl: 1', 'value2-1/1' 
0 row (s) in 0.0030 seconds 

hbase (main) : 012: O0>put'test', 'r2', 'c2: 1', 'value2-2/1' 
0 row (s) in 0.0040 seconds 

hbase (main) : 013: 0>scan'test' 

ROW COLUMN+CELL 

rl column=cl: 1, timestamp=1297513518032, value=valuel-1/1 
rl column=cl: 2, timestamp=1297513531036, value=valuel-1/2 
rl column=cl: 3, timestamp=1297513538344, value=valuel-1/3 
rl column=c2: 1, timestamp=1297513553055, value=valuel-2/1 
rl column=c2: 2, timestamp=1297513560121, value=valuel-2/2 
r2 column=cl: 1, timestamp=1297513580833, value=value2-1/1 
r2 column=c2: 1, timestamp=1297513594789, value=value2-2/1 
2 row (s) in 0.0260 seconds 

hbase (main): 014: 0>get'test', 'rl', {COLUMN=>'c2: 2'} 
COLUMN CELL 

c2: 2 timestamp=1297513560121, value=valuel-2/2 

1 row (s) in 0.0140 seconds 

hbase (main) : 015: 0>disable'test' 

0 row (s) in 0.0930 seconds 

hbase (main) : 016: 0>drop'test' 

0 row (s) in 0.0770 seconds 

hbase (main) : 017: 0>exit 


= = 二 二 


12.2.4 HBase 配 置 














关于 HBase 的 所 有 配置 参数 ， 用 户 可 以 通过 查看 conffhbase-defaultxml 文 件 获知 。 每 个 参 
数 通过 property 节点 来 区 分 ， 其 配置 方式 与 Hadoop 的 相同 : name 字 段 表 示 参 数 名 ，value 字 
段 表 示 对 应 参数 的 值 ，description 字 段 表示 参数 的 描述 信息 ， 相 当 于 注释 的 作 


























配置 参数 的 格式 如 下 所 示 : 


二 一 
<configuration> 


<property> 

<name>MHBAX</name> 
<value> 配 置 参数 对 应 取 值 </value> 
<description> Haa </description> 
</property> 

</configuration> 


III‘ 


因此 ， 如 果 要 对 HBase 进 行 配置 ， 修 改 conffhbase-defaultxml 文 件 或 conf/hbase-site.xml 
文件 中 的 property 节点 即 可 (被 二 property > </peoperty > 所 包含 的 部 分 ) 。 





限于 篇 幅 ， 下 面 我 们 只 针对 比较 重要 的 几 个 参数 做 简单 的 介绍 





(1) hbase. client.write.buffer 


通过 此 参数 设置 写 入 缓冲 区 的 数据 大 小 ， 以 字 节 为 单位 ， 默 认 写 入 缓冲 区 的 数据 大 小 为 
2MB。 服 务 器 通过 此 缓冲 区 可 以 加 快 处 理 的 速度 ， 但 是 此 值 如 果 设 置 得 过 大 势必 加 重 服务 器 
的 负担 ， 因 此 一 定 要 根据 实际 情况 进行 设置 。 











(2) hbase. master.meta.thread.rescanfrequency 





Haster 会 扫描 ROOT 和 META 表 的 时 间 间 隔 ， 以 毫秒 为 单位 ， 默 认 值 为 60 000 坚 秒 。 此 值 
不 宜 设 置 得 过 小 ， 尤 其 当 存储 数据 较 多 的 时 候 ， 否 则 频繁 地 扫描 ROOT 和 META 表 将 严重 影 








响 系 统 的 性 能 。 


(3) hbase. regionserverhandlercount 





客户 端 向 服务 器 请 求 服务 时 ， 服 务 器 先 将 客户 端的 请 求 连接 放 入 一 个 队列 中 ， 然 后 服务 
器 通过 轮 询 的 方式 对 其 进行 处 理 。 这 样 每 一 个 请 求 就 会 产生 一 个 线程 。 此 值 要 根据 实际 情况 
设置 ， 建 议 设置 得 大 一 些 。 该 值 指出 RegionServer 上 等 待 处 理 请 求 的 实例 数目 ， 默 认为 10。 
在 服务 器 端 写 数据 缓存 所 消耗 的 内 存 大 小 为 : 


hbase.client.write.buffer*hbase.regionserver.handler.count. 

















(4) hbase. hregion.max. filesize 





通过 此 参数 可 以 设置 Hregion 中 Stove 文 件 的 最 大 值 ， 以 字 节 为 单位 。 当 表 中 的 列 族 超过 
此 值 时 ， 文 件 将 被 分 割 。 其 默认 大 小 为 256MB。 

















(5) hfile. blockcache.size 


该 参数 表示 HFile/StoreFile 绥 存 所 占 Java 虚 拟 机 堆 大 小 的 百分比 ， 默 认 值 为 0.2， 即 20%。 
将 其 值 设置 为 0 表示 禁用 此 选项 。 


























(6) hbase. regionserver.global.memstore.upperLimit 














该 参数 表示 在 Region 服 务 器 中 所 有 的 memstore 所 占用 的 Java 虚 拟 机 比例 的 最 大 值 ， 默 认 
值 为 0.4， 即 40%。 当 memstore 所 占用 的 空间 超过 此 值 时 ， 更 新 操作 将 被 阻塞 ， 并 且 所 有 的 内 
容 将 被 强制 写 出 。 
































(7) hbase. hregion.memstore.flush.size 


如 果 memstore 缓 存 的 内 容 大 小 超过 此 参数 所 设置 的 值 ， 那 么 它 将 被 写 到 磁盘 上 。 该 参数 
的 默认 值 为 64MB。 





另外 ， 在 配置 文档 中 还 有 很 多 关于 ZooKeeper 配 置 的 参数 ， 如 


Zookeepersession.timeoout、 以 hbase.zookeeper 开 头 的 参数 以 及 以 hbase.zookeeperproperty 开头 
的 一 些 参数 。 限 于 篇 幅 这 里 不 再 效 述 ， 关 于 ZooKeeper 更 详细 的 配置 见 第 15 章 。 


12.3 ”HBase 体 系 结构 


HBase 的 服务 器 体系 结构 遵从 简单 的 主 从 服务 器 架构 ， 它 由 HRegion 服 务 器 (HRegion 
Server) 群 和 HBase Master 服 务 器 (Hbase Master Server) 构成 。HBase Master 服 务 器 负责 管 
理 所 有 的 HRegion 服 务 器 ， A E 并 处 理 
HBase 服 务 器 运行 期 间 可 能 遇 到 的 错误 。HBase Master 服 务 器 本 身 并 不 存储 HBase 中 的 任何 数 
据 ，HBase 逻 辑 上 的 表 可 能 会 被 划分 成 多 个 HRegion， 然 后 存储 到 HRegion 服 务 器 群 中 。 
HBase Maste 服 务 器 中 存储 的 是 从 数据 到 HRegion 服 务 器 的 映射 。 因 此 ，HBase 体 系 结构 如 图 
12-8 所 示 。 
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图 12-8 HBase 体 系 结构 


12.3.1 HRegion 





当 表 的 大 小 超过 设置 值 的 时 候 ，HBase 会 自动 将 表 划 分 为 不 同 的 
有 行 的 一 个 子 集 。 对 





区 域 ， 每 个 区 域 包含 所 























户 来 说 ， 每 个 表 是 一 堆 数据 的 集合 ， 靠 主键 来 
一 张 表 是 被 拆 分 成 了 多 块 ， 每 一 块 就 是 一 个 HRegion。 我 们 
一 个 HRegion。 一 个 H 





区 分 。 从 物理 上 来 说 ， 


表 名 + 开始 /结束 主键 来 区 分 每 
Region 会 保存 一 个 表 里 面 某 段 连续 的 数据 ， 从 开始 主键 到 结束 主键 ， 一 
张 完整 的 表格 是 保存 在 多 个 HRegion 上 面 的 。 





























12.3.2 ”HRegion 服 务 器 




















所 有 的 数据 库 数据 一 般 是 保存 在 Hadoop 分 布 式 文件 系统 上 面 的 ， 用 户 通过 一 系列 
HRegion 服 务 器 获取 这 些 数据 。 一 台 机 器 上 一 般 只 运行 一 个 HRegion 服 务 器 ， 而 且 每 一 个 
的 HRegion 也 只 会 被 一 个 HRegion 服 务 器 维护 。 


区 
e 





图 12-9 所 示 为 HRegion 服 务 器 体系 结构 

















HRegion 服 务 器 包含 两 大 部 分 : HLOG 部 分 和 HRegion 部 分 。 其 中 HLOG 用 来 存储 数据 日 
志 ， 采 用 的 是 先 写 日 志 的 方式 (Write-ahead log) 。HRegion 部 分 由 很 多 的 HRegion 组 成 ， 存 
储 的 是 实际 的 数据 。 每 一 个 HRegion 又 由 很 多 的 Stroe 组 成 ， 每 一 个 Store 存 储 的 实际 上 是 一 个 
列 族 (ColumnFamily ) 下 的 数据 。 此 外 ， 在 每 一 个 HStore 中 有 包含 一 块 Mem Store. 

MemStore 驻 留 在 内 存 中 ， 数 据 到 来 时 首先 更 新 到 MemStore 中 ， 当 到 达 阐 值 之 后 再 更 新 到 对 
应 的 StoreFile (又 名 HFile 中 。 每 一 个 Store 包 含 了 多 个 StoreFile, StoreFile 负 责 的 是 实际 数据 


存储 ， 为 HBase 中 最 小 的 存储 单元 。 
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图 12-9 HRegion 服 务 器 体系 结构 





HBase 中 不 涉及 数据 的 直接 删除 和 更 新 操作 ， 所 有 的 数据 均 通过 追加 的 方式 进行 更 新 。 
数据 的 删除 和 更 新 在 HBase 合 并 〈compact) 的 时 候 进行 。 当 Store 中 StoreFile 的 数量 超过 设 定 
的 阔 值 时 将 触发 合并 操作 ， 该 操作 会 把 多 个 StoreFile 文 件 合并 成 一 个 StoreFile 。 


















































当 用 户 需 要 更 新 数据 的 时 候 ， 数 据 会 被 分 配 到 对 应 的 HRegion 服 务 器 上 提交 修改 。 数 据 

首先 被 提交 到 HLog 文 件 里 面 ， 在 操作 写 入 HLog 之 后 ，commit O 调用 才 会 将 其 返回 给 客户 
端 。HLog 文 件 用 于 故障 恢复 。 例 如 某 一 台 HRegionServer 发 生 故 障 ， 那 么 它 所 维护 的 HRegion 
会 被 重新 分 配 到 新 的 机 器 上 。 这 时 HLog 会 按照 HRegion 进 行 划分 。 新 的 机 器 在 加 载 HRegion 

的 时 候 可 以 通过 HLog 对 数据 进行 恢复 。 





































































































当 一 个 HRegion 变 得 太 过 巨大 、 超 过 了 设 定 的 闵 值 时 ，HRegion 服 务 器 会 调 
HRegion.closeAndSplit © ， 将 此 HRegion 拆 分 为 两 个 ， 并 且 报 告 给 主 服务 器 让 它 决定 由 哪 台 
HRegion 服 务 器 来 存放 新 的 HRegion。 这 个 拆 分 过 程 十 分 迅速 ， 因 为 两 个 新 的 HRegion 最 初 只 
是 保留 原来 HRegionFile 文 件 的 引用 。 这 时 旧 的 HRegion 会 处 于 停止 服务 的 状态 ， 当 新 的 
HRegion 拆 分 完成 并 且 把 引用 删除 了 以 后 ， 旧 的 HRegion 才 会 删除 。 另 外 ， 两 个 HRegion 可 以 
通过 调用 HRegion.closeAndMerge O 合并 成 一 个 新 的 HRegion， 当 前 版 本 下 进行 此 操作 需 
两 台 HRegion 服 务 器 都 停机 。 
















































































12.3.3 HBase Master 服 务 器 


每 台 HRegion 服 务 器 都 会 和 HMaster 服 务 器 通信 ，HMaster 的 主要 任务 就 是 告诉 每 个 
HRegion 服 务 器 它 要 维护 哪些 HRegion。 





当 一 台新 的 HRegion 服 务 器 登录 到 HMaster 服 务 器 时 ，HMaster 会 告诉 它 先 等 待 分 配 数 
据 。 而 当 一 台 HRegion 死 机 时 ，HMaster 会 把 它 负 责 的 HRegion 标 记 为 未 分 配 ， 然 后 再 把 它们 
分 配 到 其 他 HRegion 服 务 器 中 。 











如 果 当 前 HBase 已 经 解决 了 之 前 存在 的 SPFO ( 单 点 故障 ) ， 并 且 HBase 中 可 以 启动 多 个 
HMaster， 那 么 它 就 能 够 通过 ZooKeeper 来 保证 系统 中 总 有 一 个 Master 在 运行 。HMaster 在 功 
能 上 主要 负责 Table 和 HRegion 的 管理 工作 ， 具 体 包 括 ; 

















管理 用 户 对 Table 的 增 、 删 、 改 、 查 操作 ; 











管理 HRegion 服 务 器 的 负载 均衡 ， 调 整 HRegion 分 布 ; 
在 HRegion 分 裂 后 ， 负 责 新 HRegion 的 分 配 ; 


在 HRegion 服 务 器 停机 后 ， 负 责 失效 HRegion 服 务 器 上 的 HRegion 迁 移 。 


12.3.4 ROOT 表 和 META 表 


在 开始 这 部 分 内 容 之 前 ， 我 人 
HRegion 是 按照 表 名 和 主键 范围 来 
可 以 表示 相应 的 HRegion 了 。 








Aik, BABU AH 





先 来 看 一 下 HBased 
区 分 的 ， 由 于 主键 范围 是 连续 的 ， 所 以 一 般 


F 和 分 割 操作 ， 如 果 开 





bh 相 关 的 机 制 是 怎样 的 。 之 前 我 们 说 过 
开始 主键 就 























E 好 在 执行 这 些 操作 的 过 程 中 出 现 死机 ， 那 么 








就 可 能 存在 多 份 表 名 和 开始 主键 相同 的 数据 ， 这 样 的 话 只 有 开始 主键 就 不 够 了 ， 这 就 要 通过 


HBase 的 元 数据 信息 来 区 分 哪 一 份 才 是 
都 有 一 个 'regionId' 来 标识 它 的 唯一 性 。 








所 以 一 个 HRegion 的 表达 符 最 后 是 : 表 名 + 


E 确 的 数 


据 文 件 ， 为 了 





区 分 这 样 的 情况 ， 每 个 HRegion 


开始 主键 + 唯一 





ID (tablename+startkey+regionId) 。 我 们 可 以 
据 就 是 元 数据 (META ) ， 而 元 数据 本 身 也 是 被 
元 数据 表 (METATable ) ， 里 面 保存 的 就 是 HRegion 标 识 符 和 实 





元 数据 表 也 会 增长 ， 并 且 可 





能 被 分 割 为 几 个 HRegion， 为 了 定位 这 些 HRegion， 我 们 采 














这 个 识别 符 来 区 分 不 同 的 HRegion， 这 些 数 
保存 在 HRegion 里 面 的 ， 所 以 我 们 称 这 个 表 为 
际 HRegion 服 务 器 的 映射 关 





























一 个 根 数据 表 (ROOT table) ， 它 保存 了 所 有 元 数据 表 的 位 置 ， 而 根 数据 表 是 不 能 被 分 割 


的 ， 永 远 只 存在 一 个 HRegion。 


在 HBase 启 动 的 时 候 ， 主 服务 器 先 去 扫描 根 数 据 表 ， 因 为 这 个 表 只 会 有 一 个 H 


Region， 所 





以 这 个 HRegion 的 名 字 是 被 写 死 的。 当然 要 把 根 数据 表 分 配 到 一 个 HRegion 服 务 器 中 需要 一 定 


的 时 间 。 


当 根 数据 表 被 分 配 好 之 后 ， 主 服务 器 就 会 


然后 把 元 数据 表 分 配 到 不 同 的 HRegion 服 务 器 中 。 
区 域 的 信息 ， 把 它们 分 配给 不 同 的 HRegion 服 务 器 。 





扫描 根 数据 表 ， 获 取 元 数据 表 的 名 字 和 位 置 ， 
最 后 就 是 扫描 元 数据 表 ， 找 到 所 有 HRegion 


hH 











主 服务 器 在 内 存 中 保存 着 当前 活跃 的 HRegion 服 务 器 的 数据 ， 因 此 如 果 主 服务 器 死机 ， 
整个 系统 也 就 无 法 访问 了 ， 这 时 服务 器 的 信息 也 就 没有 必要 保存 到 文件 里 面 了 。 











元 数据 表 和 根 数据 表 的 每 一 行 都 包含 一 个 列 族 (info 列 族 ): 
info: regioninfo 包 含 了 一 个 串 行 化 的 HRegionInfo 对 象 。 
info: server 保 存 了 一 个 字符 串 ， 是 服务 器 的 地 址 HServerAddress.toString O 。 


info: startcode 是 一 个 长 整 型 的 数字 字符 串 ， 它 是 在 HRegion 服 务 器 启动 的 时 候 传 给 主 服 
务 器 的 ， 让 主 服务 器 确定 这 个 HRegion 服 务 器 的 信息 有 没有 更 改 。 














因此 ， 当 一 个 客户 端 拿 到 根 数据 表 地 址 以 后 ， 就 没有 必要 再 连接 主 服 务 器 了 ， 主 服务 器 
的 负载 相对 就 小 了 很 多 。 它 只 会 处 理 超时 的 HRegion 服 务 器 ， 并 在 启动 的 时 候 扫描 根 数据 表 
和 元 数据 表 ， 以 及 返回 根 数据 表 的 HRegion 服 务 器 地 址 。 























注意 ，ROOT 表 包含 META 表 所 在 的 区 域 列表 ，META 表 包含 所 有 的 用 户 空间 区 域 列表 ， 
以 及 Region 服 务 器 地 址 。 客 户 端 能 够 缓存 所 有 已 知 的 ROOT 表 和 META 表 ， 从 而 提高 访问 的 效 











12.3.5 ZooKeeper 


ZooKeeper 存 储 的 是 HBase 中 ROOT 表 和 META 表 的 位 置 。 此 





各 个 机 器 的 状态 〈 每 台 机 器 到 ZooKeeper 中 注册 一 个 实例 ) 。 当 某 台 机 器 发 生 故 障 的 时 候 
ZooKeeper 会 第 一 时 间 感 知 到 ， 并 通知 HBase Master 进 行 相应 的 处 理 。 同 时 ， 当 HBase 











Master 发 生 故 障 的 时 候 ，ZooKeeper 还 负责 HBase Master 的 恢复 了 
系统 中 只 有 一 台 HBase Master 提 供 服务 。 





外 ，ZooKeeper 还 负责 上 








[ 作 ， 能 够 保证 在 同一 时 


12.4 HBase 数 据 模 型 


12.4.1 数据 模型 





HBase 是 一 个 类 似 Bigtable 的 分 布 式 数据 库 ， 它 是 一 个 稀 疏 的 长 期 存储 的 〈 存 在 硬盘 
上 ) 、 多 维度 的 、 排 序 的 映射 表 。 这 张 表 的 索引 是 行 关键 字 、 列 关键 字 和 时 间 戳 。HBase 中 
的 数据 都 是 字符 串 ， 没 有 类 型 。 


























户 在 表格 中 存储 数据 ， 每 一 行 都 有 一 个 可 排序 的 主键 和 任意 多 的 列 。 由 于 是 稀疏 存 
储 ， 同 一 张 表 里 面 的 每 一 行 数据 都 可 以 有 截然 不 同 的 列 。 











列 名 字 的 格式 是 "<family >: 过 qualifier>"， 都 是 由 字符 串 组 成 的 。 每 一 张 表 有 一 个 列 
族 集合 ， 这 个 集合 是 固定 不 变 的 ， 只 能 通过 改变 表 结 构 来 改变 。 但 是 qualifier 值 相对 于 每 一 
行 来 说 都 是 可 以 改变 的 。 























HBase 把 同一 个 列 族 里 面 的 数据 存储 在 同一 个 目录 下 ， 并 且 HBase 的 写 操作 是 锁 行 的 ， 
每 一 行 都 是 一 个 原子 元 素 ， 都 可 以 加 锁 。 

HBase 所 有 数据 库 的 更 新 都 有 一 个 时 间 戳 标记 ， 每 个 更 新 都 是 一 个 新 的 版 本 ，HBase 会 
保留 一 定数 量 的 版 本 ， 这 个 值 是 可 以 设 定 的 。 客 户 端 可 以 选择 获取 距离 某 个 时 间 点 最 近 的 版 
本 单元 的 值 ， 或 者 一 次 获取 所 有 版 本 单元 的 值 。 





12.4.2 ”概念 视图 














我 们 可 以 将 一 个 表 想 象 成 一 个 大 的 映射 关系 ， 通 过 行 键 、 行 键 + 时 间 戳 或 行 键 + 列 〈 列 
TR: IUR ， 就 可 以 定位 特定 数据 。HBase 是 稀 玻 存储 数据 的 ， 因 此 某 些 列 可 以 是 空白 



































的 ， 表 12-2 是 对 应 12.2 节 中 创建 的 test 表 的 数据 概念 视图 。 
表 12-2 HBase 数据 的 概念 视图 
Column Family:c! Column Family:c2 
Row Key Time Stamp 
列 {ii 列 fi 
7 ell valuel-1/L 
6 eh:2 valuel-t/2 
rl t5 1:3 valuel-1/3 
4 2:1 valuel-2/1 
B 2:2 value 1-2/2 
A 2 ell valuc2-1/1 
n2 
tu c2:1 value2-1/1 

















从 上 表 中 可 以 看 出 ，test 表 有 r1 和 r2 两 行 数据 ， 并 且 有 cl 和 c2 两 个 列 族 。 在 rl 中 ， 列 族 c1 
有 三 条 数据 ， 列 族 c2 有 两 条 数据 ， 在 r2 中 ， 列 族 c1 有 一 条 数据 ， 列 族 c2 有 一 条 数据 。 每 一 条 
数据 对 应 的 时 间 戳 都 用 数字 来 表示 ， 编 号 越 大 表示 数据 越 旧 ， 反 之 表示 数据 越 新 。 



































12.4.3 ”物理 视图 

















虽然 从 概念 视图 来 看 每 个 表格 是 由 很 多 行 组 成 的 ， 但 是 在 物理 存储 上 面 ， 它 是 按照 列 来 
保存 的 ， 这 一 点 在 进行 数据 设计 和 程序 开发 的 时 候 必须 牢记 。 











上 面 的 概念 视图 在 物理 存储 的 时 候 应 该 表现 成 表 12-3 和 表 12-4 所 示 的 样子 。 


表 12-3 HBase 数据 的 物理 视图 (1) 






Column Family:c2 







Row Key Time Stamp 


值 








| 7 | 2:1 | valuel-1/1 
rl | 6 | c2:2 | value 1-1/2 
t5 cl:3 value1-1/3 










Row Key 





列 | ffi 





valucl-1/1 
rl 





valuel-1/1 


需要 注意 的 是 ， 在 概念 视图 上 面 有 些 列 是 空白 的 ， 这 样 的 列 实际 上 并 不 会 被 存储 ， 当 请 
求 这 些 空白 的 单元 格 时 ， 会 返回 null 值 。 














如 果 在 查询 的 时 候 不 提供 时 间 惟 ， 那 么 会 返回 距离 现在 最 近 的 那 一 个 版 本 的 数据 。 因 为 
在 存储 的 时 候 ， 数 据 会 按照 时 间 惟 来 排序 。 








12.5 HBase 与 RDBMS 


HBase 就 是 这 样 一 个 基于 列 模式 的 映射 数据 库 ， 它 只 能 表示 很 简单 的 键 -数据 的 映射 关 
系 ， 这 大 大 简化 了 传统 的 关系 数据 库 。 与 关系 数据 库 相 比 ， 它 有 如 下 特点 : 














数据 类 型 : HBase 只 有 简单 的 字符 串 类 型 ， 所 有 的 类 型 都 是 交 由 用 户 自 己 处 理 的 ， 它 只 
保存 字符 串 。 而 关系 数据 库 有 丰富 的 类 型 选择 和 存储 方式 。 








数据 操作 : HBase 只 有 很 简单 的 插入 、 查 询 、 删 除 、 清 空 等 操作 ， 表 和 表 之 间 是 分 离 
的 ， 没 有 复杂 的 表 和 表 之 间 的 关系 ， 所 以 不 能 、 也 没有 必要 实现 表 和 表 之 间 的 关联 等 操作 。 
而 传统 的 关系 数据 通常 有 各 种 各 样 的 函数 、 连 接 操 作 。 














存储 模式 : HBase 是 基于 列 存储 的 ， 每 个 列 族 都 由 几 个 文件 保存 ， 不 同 列 族 的 文件 是 分 
离 的 。 传 统 的 关系 数据 库 是 基于 表格 结构 和 行 模式 保存 的 。 








数据 维护 : 确切 地 说 ，HBase 的 更 新 操作 不 应 该 叫做 更 新 ， 虽 然 一 个 主键 或 列 对 应 新 的 
版 本 ， 但 它 的 旧版 本 仍然 会 保留 ， 所 以 它 实际 上 是 插入 了 新 的 数据 ， 而 不 是 传统 关系 数据 库 
里 面 的 蔡 换 修改 。 


可 伸缩 性 : HBases 这 类 分 布 式 数据 库 就 是 为 了 这 个 目的 而 开发 出 来 的 ， 所 以 它 能 够 轻松 
地 增加 或 减少 《在 硬件 错误 的 时 候 ) 硬件 数量 ， 并 且 对 错误 的 兼容 性 比较 高 。 而 传统 的 关系 
数据 库 通 常 需要 增加 中 间 层 才能 实现 类 似 的 功能 。 

















当前 的 关系 数据 库 基 本 都 是 从 20 世 纪 70 年 代 发 展 而 来 的 ， 它 们 都 具有 ACID 特性 ， 并 且 
拥有 丰富 的 SQL 语言 ， 除 此 之 外 它们 基本 都 有 以 下 的 特点 : 面向 磁盘 存储 、 带 有 索引 结构 、 
多 线程 访问 、 基 于 锁 的 同步 访问 机 制 、 基 于 log 记 录 的 恢复 机 制 等 。 




















而 Bigtable 和 HBase 这 些 基 于 列 模式 的 分 布 式 数据 库 ， 更 适应 海量 存储 和 互联 网 应 用 的 需 
求 ， 灵 活 的 分 布 式 架构 可 以 使 其 利用 廉价 的 硬件 设备 组 建 一 个 大 的 数据 仓库 。 互 联网 应 用 是 
以 字符 为 基础 的 ， 而 Bigtable 和 HBase 就 是 针对 这 些 应 用 而 开发 出 来 的 数据 库 。 



















































































于 HBase 具 有 时 间 戳 特性， 所 以 它 生来 就 特别 适合 开发 wii、archiveorg 之 类 的 服务 ， 
f 且 它 原本 就 是 作为 搜索 引擎 的 一 部 分 开发 出 来 的 。 





12.6 HBase 与 HDFS 














伪 分 布 模式 和 完全 分 布 模式 下 的 HBase 运 行 基 于 HDFS 文 件 系统 。 使 用 HDFS 文 件 系统 需 


要 设置 conf/hbase-site.xm 














文件 ， 修 改 hbase.rootdir 的 值 ， 并 将 其 指向 HDFS 文 件 系统 的 位 置 。 














此 外 ，HBase 也 可 以 使 








其 他 的 文件 系统 ， 不 过 此 时 需要 重新 设置 hbase.rootdir 参 数 的 值 。 





12.7 HBase 客 户 端 














HBase 客 户 端 可 以 选择 多 种 方式 与 HBase 集 群 进行 交互 ， 最 常用 的 方式 为 Java， 除 此 之 外 
还 有 Rest 和 Thrift 接 口 。 














1.Java 


HBase 是 由 Java 编 写 的 。 在 后 面 的 章节 中 ， 我 们 将 详细 地 向 大 家 介绍 HBase 的 Java API. 
户 可 以 通过 丰富 的 Java API 接 口 与 HBase 进 行 互 操作 ， 并 执行 各 种 相关 操作 。 详 细 内 容 请 
见 12.8 节 。 





























2.Rest 和 Thrift 接 口 


HBase 的 Rest 和 Thrift 接 口 支持 XML、Protobuf 和 二 进 制 数据 编码 等 操作 。 


(1) Rest 

















户 可 以 通过 下 面 的 命令 运行 Rest: 





ee | 
hbase-daemon.sh start rest 


二 一 


运行 成 功 后 将 显示 如 图 12-10 所 示 的 画面 : 





hadoopewunte:~4 hdase-dəewon.sh start rest 


starting rest, logging to /home/hodoop/Dowmloads/hbose-8. 92. 1/Logs/hbose-hadoop- rest -wbuntu.cut 
hedaop@ubuntu:-$ jps 

3541 Main 

3370 Hister 

3534 Jps 

hadoop@ubuntu:~$ 





图 12-10 启动 HBase Rest 

















户 可 以 通过 下 面 的 命令 停止 Rest 服 务 : 
| 一 





hbase-daemon.sh stop rest 
一 





停止 过 程 如 图 12-11 所 示 。 











hadoopeubentu: ~$ hbase-daenon. sh stop rest 
stopping rest 
h bs 


3378 Ha 
hadoopen 





图 12-11 停止 HBase Rest 


(2) Thrift 




















户 可 以 通过 下 面 命令 启动 Thrift 客 户 端 ， 并 与 HBase 进 行 通信 : 





hbase-daemon.sh start thrift 


一 = 














运行 成 功 后 将 显示 如 图 12-12 所 示 的 画面 : 





Dadoop@ubuntu>~$ hbase-daewon,sh start t 
starting thrift, Log (Down loads /hbuse-8.92.1/logs/hbase-hadeop: thrift-ubertu, out 
edoopOubuntu:-$ jps 


hadoopQubuntu:—$ 











图 12-12 启动 HBase Thrift 


























户 可 以 通过 下 面 命令 停止 Thrift 服 务 : 


[| 
hbase-daemon.sh stop thrift 


QQ 一 | 





停止 过 程 如 图 12-13 所 示 : 











haloop@ubuntuc~$ Mase-daenon.sh stop thrift 
stopp 
hadoop@ubuntu:— 


3725 


3378 Mtester 
hedoop@ubuntu:—$ 

















图 12-13 停止 HBase Thrift 


12.8 Java API 


通过 前 面 的 内 容 读 者 已 经 了 解 到 ，HBase 作 为 云 环境 中 的 数据 库 ， 与 传统 数据 库 相 比 拥 
有 不 同 的 特点 。 当 前 HBase 的 Java API 已 经 比较 完善 了 ， 从 其 涉及 的 内 容 来 讲 ， 大 体 包括 : 
HBase 自 身 的 配置 管理 部 分 、Avro 部 分 、HBase 客 户 端 部 分 、MapReduce 部 分 、Rest 部 分 、 
Thrift 部 分 ，ZooKeeper 等 。 其 中 HBase 自 身 的 配置 管理 部 分 又 包括 : HBase 配 置 、 日 志 、 

















IO, Master, Regionserver, re 


plication， 以 及 安全 性 。 


限于 篇 幅 我 们 重点 介绍 与 HBase 数 据 存储 管理 相关 的 内 容 ， 其 涉及 的 主要 类 包括 : 


HBaseAdmin, HBaseConfigura 





tion, HTable, HTableDescriptor, HColumnDescriptor, Put, 


Get 和 Scanner。 关 于 Java API 的 详细 内 容 ， 大 家 可 以 查看 HBase 官 方 网 站 的 相关 资料 : 
http: //hbase.apache.org/apidocs/index.html。 


表 12-5 给 我 们 描述 了 这 几 个 相关 类 与 对 应 的 HBase 数 据 模型 之 间 的 关系 。 


表 12-5 Java API 与 HBase 数据 模型 之 间 的 关系 


Tava 3 


HBase 数据 模型 





HBaseAdmin 


数据 库 (database) 





HBaseConfiguration 





HTable 


# (table) 





HTableDescriptor 





HColumnDeseriptor 


Al (Column Family) 





Put 





Get 


行列 操作 





Scanner 





下 面 我 们 将 详细 讲述 这 些 类 的 功能 ， 以 及 它们 之 间 的 相互 关系 。 


1.HBaseConfiguration 


KA: org.apache.hadoop.hbase.HBaseConfiguration 











作用 : 通过 此 类 可 以 对 HBase 进 行 配置 。 











包含 的 主要 方法 如 表 12-6 所 示 。 





表 12-6 HBaseConfiguration 类 包含 的 主要 方法 








间 传 值 H 数 Hi 述 
org.apache.hadoop.conf-Configuration | create() 使 用 默认 的 HBase 配置 文件 来 创建 
Configuration 
void merge(org.apache.hadoop.conf. | 合并 两 个 Configuration 


Configuration destConf, org.apache. 
hadoop.conf.Configuration sreConf) 























法 示例 : 


[| 
Configuration config=HBaseConfiguration.create () ; 


一 











此 方法 使 用 默认 的 HBase 资 源 来 创建 Configuration。 程 序 默认 会 从 classpa 也 中 查找 hbase- 
site.xml 的 位 置 从 而 初始 化 Configuration 。 














2.HBase Admin 


关系 : org.apache.hadoop.hbase.client.HBase Admin 











作用 : 提供 了 一 个 接口 来 管理 HBase 数 据 库 的 表 信息 。 它 提供 的 方法 包括 创建 表 、 删 除 
表 、 列 出 表 项 、 使 表 有 效 或 无 效 ， 以 及 添加 或 删除 表 列 族 成 员 等 。 











包含 的 主要 方法 如 表 12-7 所 示 。 


表 12-7 HbaseAdmin 类 包含 的 主要 方法 





回 传 值 


函数 


ii it 





void 


addColumn (String tableName, HColumnDescriptor 
column) 


FP CARTER AERE MAL 





checkHBaseAvailable ( HBaseConfiguration conf) 


ARR. A HBase 是 否 处 于 运行 
状态 





createTable {HTableDeseriptor dese) 


OBE. HE TE 





deleteTable (byte{] tableName) 


删除 一 个 已 存在 的 表 





enableTable (byte[] tableName) 


使 表 处 干 有 效 状态 





disableTable (String tableName} 





EAL FAR 





HtableDescriptor[] 


listTables (> 


列 出 所 有 用 户 空间 表 项 








modifyTable (byte[] tableName, HTableDescriptor 


修改 表 的 模式 ， 是 异 


























xoi htd) 需要 花费 一 定时 间 
boolean tableExists (String tableName ) 检查 表 是 否 存在 ， 存 在 则 返回 true 
法 示例 : 











| 
HbaseAdmin admin=new HbaseAdmin (config) ; 
admin.disableTable ("tablename") ; 


an 














上 述 例子 通过 一 个 HBaseAdmin 实 例 admin 调 








disableTable 方 法 来 使 表 处 于 无 效 状态 。 
3.HTableDescriptor 


关系 : org.apache.hadoop.hbase.HTableDescriptor 

















作 

















: HtableDescriptor 类 包含 了 表 的 名 字 及 其 对 应 表 的 列 族 。 


包含 的 主要 方法 如 表 12-8 所 示 。 





表 12-8 HtableDescriptor 类 包含 的 主要 方法 






















同 传 值 H w fii 述 
void | addFamily (HeolumaDescriptor) 添加 一 个 列 底 
HeolumnDeseriptor | removeFamily 《byte[] column) 除 一 个 列 底 
byte[] [getName O 获取 表 的 名 字 





byte[] getValue (byte{] key) 


sctValue (String key, String value) 


获取 属性 的 值 
设置 属性 的 值 

























法 示例 : 





SSS = = == = 
HtableDescriptor htd=new HtableDescriptor (tablename) ; 
htd.addFamily (new HcolumnDescriptor ("Family") ) ; 


人 -= 


在 上 述 例子 中 ， 通 过 一 个 HColumnDescriptor 实 例 ， 为 HTableDescriptor 添 加 了 一 个 列 





族 : Family 。 
4.HColumnDescriptor 


KA: org.apache.hadoop.hbase.HColumnDescriptor 











作用 : HColumnDescriptor 维 护 着 关于 列 族 的 信息 ， 例 如 版 本 号 、 压 缩 设置 等 。 它 通常 在 
创建 表 或 为 表 添加 列 族 的 时 候 使 用 。 列 族 被 创建 后 不 能 直接 修改 ， 只 能 通过 删除 然后 重建 的 
方式 来 “修改 "。 并 且 ， 当 列 族 被 删除 的 时 候 ， 对 应 列 族 中 所 保存 的 数据 也 将 被 同时 删除 。 









































包含 的 主要 方法 如 表 12-9 所 示 。 


表 12-9 HcolumnDescriptor 类 包含 的 主要 方法 





同 传 什 A & 
















byte[] | getName () | 
byte[] | getValue (byte[] key) 
void sctValue (String key, String value) 

















法 示例 : 





Eee 
HtableDescriptor htd=new HtableDescriptor (tablename) ; 
HcolumnDescriptor col=new HcolumnDescriptor ("content") ; 
htd.addFamily (col) ; 


| | 


此 示例 添加 了 一 个 名 为 content 的 列 族 。 


5.HTable 


关系 : org.apache.hadoop.hbase.clientHTable 









































作用 : 此 表 可 以 
的 ， 
溃 。 这 时 ， 建 议 使 用 HTablePool 类 进行 操作 。 








该 类 所 包含 的 主要 方法 如 表 12-10 所 示 。 


来 与 HBase 表 进行 通信 。 这 个 方法 对 于 更 新 操作 来 说 是 非 线 程 安 全 
也 就 是 说 ， 如 果 有 过 多 的 线程 尝试 与 单个 HTable 实 例 进 行 通信 ， 那 么 写 缓冲 器 可 能 会 骨 


表 12-10 HTable 类 包含 的 主要 方法 




















同 传 值 G] 数 摘 述 
void checkAndPut [bytef] row，byte[] family, 自动 检查 row/family/qualifier 是否 与 给 定 的 
byte[] qualifier, byte{] value, Put put? {Acca 

void close () FF ER PEPE Hy YY Mi a FE A BS 
更 新 

Boolean exists (Getl! ket) 检查 Get 实例 所 指定 的 值 是 否 存在 于 HTable 
的 列 中 

Result get (Get get) 取出 指定 行 的 基 些 单元 格 对 应 的 值 

bytef}{] getEndKeys () FT SEAS BE Mae OR NDE HE BR 








ResultScanner 


getScanner (byte[] family) 





HY ZEN Hy EAKA scanner 实例 





HTableDescriptor 


getTableDeseriptor () 


获取 当前 表 的 HtableDescriptor 实例 





bytc[] 


getTableName () 


获取 表 名 





void 

















法 示例 : 











向 表 中 添加 值 


Eee 
Htable table=new Htable (conf, Bytes.toBytes (tablename) ) ; 
ResultScanner 

scanner=table.getScanner (Bytes.toBytes (“cf”) ); 


| 
上 述 函数 将 获取 表 内 所 有 列 族 为 cf" 的 记录 。 


6.Put 


关系 : org.apache.hadoop.hbase.client.Put 





























作 


来 对 单个 行 执行 添加 操作 。 


包含 的 主要 方法 如 表 12-11 所 示 。 


表 12-11 Put 类 包含 的 主要 方法 














辐 传 值 G tk fi 述 
Put add 《byte[] family，byte[] quatifier，byte[] | 将 指定 的 列 和 对 应 的 值 语 加 到 Pur 实例 中 
value) 
Put add (byte{] family, byte[] qualifier, long ts, 


FARE AE AY AY AA EAE Be ae a AO 添 
加 到 Pur 实例 中 


| BSH “Fb. AT PERC 
检查 是 否 包 含 指定 的 “ 列 族 : 列 ” 


byte[] value) 











List<KeyValue> | get (byte[] family, byte[] qualifier) 








has 【byte[] family, byte{] qualifier) 























法 示例 : 


了 


HTable table=new HTable (conf, Bytes.toBytes (tablename) ) ; 
Put p=new Put (row) ; // 为 指定 行 (row) 创建 一 个 Put 操 作 

p.add (family, qualifier, value); 

table.put (p) ; 


een 
上 述 函 数 将 向 表 “tablename” 添 加 “family, qualifier, value” 指 定 的 值 。 


7.Get 


KF: org.apache.hadoop.hbase.client.Get 


























作用 : 用 来 获取 单个 行 的 相关 信息 。 





包含 的 主要 方法 如 表 12-12 所 示 。 


表 12-12 Ge 类 包含 的 主要 方法 
网 传 值 h & 


i 还 
Get | 


addColumn (byte[] family, byte[} qualifier) | 获取 指定 列 族 和 到 修饰 
addFamily (byte{] family) 通过 指定 的 列 族 获取 其 
获取 指定 区 间 的 列 的 版 本 号 
当 执行 Get 操作 时 设置 服务 器 端的 过 旋 器 















Get 









Get 





setTimeRange (long minStamp, long maxStamp》 





Get setFilter (Filter filter > 




















法 示例 : 


二 = 


Htable table=new Htable (conf, Bytes.toBytes (tablename) ) ; 
Get g=new Get (Bytes.toBytes (row) ); 
Result result=table.get (g) ; 


——_—_—_—_—_—_—_—_—_—__CCOOOO—“—3—7;COOOOOOOCOoOo = 


上 述 函数 将 获取 “tablename”" 表 中 “row” 行 对 应 的 记录 。 





8.Result 


关系 : org.apache.hadoop.hbase.client.Result 









































作用 : 存储 Get 或 Scan 操 作 后 获取 的 表 的 单行 值 。 使 用 此 类 提供 的 方法 能 够 直接 方便 地 
获取 值 或 获取 各 种 Map 结 构 (<key, value> 对 ) 。 


包含 的 主要 方法 如 表 12-13 所 示 。 
表 12-13 Result 类 包含 的 主要 方法 


辐 传 值 函数 Ho g 
检查 指定 的 列 是 否 存 在 










containsColumn (byte[] family, 
byte[] qualifier) 


Boolean 














getFamilyMap 【byte[] family ) 让 格式 为 Map<qualificr.value>, gR 
EG i Wa PF 5 (ACES Be (At 


获取 对 应 列 的 最 新 值 


NavigableMap<byte[},byte{]> 












getValue ( 
qualifier) 


byte[] family, byte[] 





bytef] 

















法 示例 : 





HTable table=new HTable (conf, Bytes.toBytes (tablename) ) ; 
Get g=new Get (Bytes.toBytes (row) ) ; 

Result rowResult=table.get (g) ; 
Bytes[]value=rowResult.getValue ( (family+": "+column) ) ; 


一 


9.ResultScanner 


KA: Interface 

















作用 : 客户 端 获取 值 的 接口 。 





包含 的 主要 方法 如 表 12-14 所 示 。 


表 12-14 ResultScanner 类 包含 的 主要 方法 











网 传 值 Ei] 数 ti 述 
Void | close () | 关闭 scanner 并 释 才 分 配给 它 的 所 有 资源 
Result next () 获取 下 一 行 的 值 

法 示例 : 




















ee 
ResultScanner 
scanner=table.getScanner (Bytes.toBytes (family) ) ; 
for (Result rowResult: scanner) { 
Bytes[]str=rowResult.getValue (family, column) ; 
} 
一 


如 果 大 家 想 要 对 HBase 的 原理 、 运 行 机 制 以 及 编程 有 更 深入 的 了 解 ， 建 议 阅 读 HBase 的 
源码 。 通 过 对 HBase 源 码 的 深入 探究 ， 相 信 大 家 一 定 能 够 对 HBase 有 更 深层 次 的 理解 。 





[1] org.apache.hadoop.hbase.client. Get 类 。 


[2] org.apache.hadoop.hbase.client Put 类 。 


12.9 HBase 编 程 




















本 节 我 们 将 介绍 如 何 使 用 IDE 对 HBase 进 行 编程 ， 并 介绍 如 何 使 用 HBase 编 写 MapReduce 
程序 。 首 先 ， 我 们 介绍 如 何 配置 Eclipse， 并 用 其 开发 HBase 应 用 程序 。 

























































































12.9.1 使 用 Eclipse 开发 HBase 应 用 程序 








当 第 三 方 访问 HBase 的 时 候 ， 首 选 需要 访问 ZooKeeper， 因 为 HBase 的 重要 信息 保存 在 
ZooKeeper 当 中 。 我 们 知道 ，ZooKeeper 集 群 的 信息 由 SHBASE_HOME/conf/hbase-site.xml 文 
件 指 定 。 因 此 需要 通过 classpath 来 指定 HBase 配 置 文件 的 位 置 ， 即 SHBASE_HOME/eonf/ 的 位 
置 。 



































使 用 HBase 客 户 端 进行 编程 的 时 候 ，hbase、hadoop、log4j、commons-logging、 
commons-lang、ZooKeeper 等 JAR 包 对 于 程序 来 说 是 必需 的 。 除 此 之 外 ，commons- 
configuration, slf4j 等 JAR 包 也 经 常 被 用 到 。 下 面 列 出 对 于 HBase-0.92.1 版 本 来 说 所 需 的 JAR 
包 : 























三 一 
hbase-0.92.1.jar 
hbase-0.92.1-test.jar 
hadoop-1.0.1.jar 
zookeeper-3.4.3.jar 
log4j-1.2.16.jar 
commons-logging-1.1.1.jar 
commons-lang-2.5.jar 


一 








此 外 程序 可 能 包含 一 些 间接 引用 ， 可 以 通过 错误 提示 进行 相应 修改 。 











下 面 我 们 通过 一 个 实例 来 演示 具体 的 配置 。 
(1) 添加 JAR 包 


添加 JAR 包 有 两 种 方法 ， 比 较 简单 的 是 ， 在 HBase 工 程 上 ， 右 击 Propertie 在 弹出 的 快捷 菜 








单 中 选择 Java Build Path 对 话 框 ， 在 该 对 话 框 中 单 击 Libraries 选 项 卡 ， 在 该 选项 卡 下 单 击 Add 
External JARs 按 钮 ， 定 位 到 $HBASE/lib 目 录 下 ， 并 选取 上 述 JAR 包 ， 如 图 12-14 所 示 。 











上 述 操 作 可 以 通过 在 工程 根 目录 ( 即 与 sre 文 件 夹 平行 目录 〉 下 创建 lib 文 件 夹 ， 并 添加 相 
关 JAR 包 来 代替 。 











(2) 添加 hbase-site.xml 配 置 文件 











在 工程 根 目录 下 创建 Conf 文 件 夹 ， 将 8SHBASE_HOME/conf/ 目 录 中 的 hbase-site.xml 文 件 
复制 到 该 文件 夹 中 。 通 过 右键 选择 Propertie- > Java Build Path->Libraries- 之 Add Class 
Folder， 然 后 勾 选 Conf 文 件 夹 进 行 添加 ， 如 图 12-15 所 示 。 














接 下 来 便 可 以 与 普通 Java 程 序 一 般 调用 HBase API 编 写 程 序 了 。 还 可 以 通过 运行 HBase 
Shell 与 程序 操作 进行 交互 。 








n Java Build Path 


Resource 


Builders 
tava Build Path Jans and class folders oa the build path 


ore Projects | Mlibraries | Order and Export 


Java Code Style > & commons-configuration-1.6,jar- shomeshadoon/nad 

Java Compiler » & commons-lang2.5jar-/homeshadoop/hadoop-1,0.1 

* src Java Editor » & commons-logging-t. 1.1.Jar-/home/hadoop/hadoap 

» org. Javadoc Location > & hadoop-<ore-1.0.1 Jar-shome/nadoap/hadoop-t.0.1 

> MIRES Project Facets > i hbase-032. t-tests jar-shome/hadoop/hadoop-t.0.1 

YmRefer Project References » & hbase-092.1 jar- /home/hadoap/hadoop-1.0.t/hoas 
> Bhba — Run/Debug Settings > 加 HBasejcorf (class folder) 

上 cai 


#4 Mipbadoop | hadoop-1.0.1 hbase:0:924 | 


Paces Name Modified 

aa | TTT] , 
Drecenkiyused | [ruby 03/09/2042 = 
@hadoop Bactnation-1.1 jar 65KB 03/09/2012 
E Desktop Basmat jer 42.0KB 03/09/2012 
E Filesystem 三 oawo1.53jar 257.1KB 03/09/2012 
— Floppy Drive Bowowet.s3jar MAIKB 93/09/2012 hone=/ust 
Bi commons beorntils-1.7.0.50r 1842KB 03/09/2012 a. class. pot 
G commons-bearstilscore-1.8.0jar 2012KB 03/09/2012 aero 人 
- 量 commonsclMzjar 40.2KB ~ paik: oe 
name inun 

harch 


eVjava (May 


@ Documents 
A masie 
fm pirties 





图 12-14 添加 相关 JAR 包 





Choose class folders to be added bo the build path: 


pOrder and Export 
”BHBase Á 
> 门 @ settings $ 
Ds Joop/ħadoop-1.0.1 
中 re ici e/hadoop/hadoop EARTH 
gjhadoog-10.1 Add Variable... 
hadoop-10.1 


» &bin i = - 
hadoop-1.0,1/hbas gd Library, 


> & sre 


op101hbs 
Add External Class Folder... 






» BB settings 





oopihadoop-t.0.1) 
opshadoop-t.0.1/2 


Create New Folder... 


cee ls cot | oe 





12-15 添加 HBase 配 置 文件 











如 果 不 设置 hbase-site.xml 配 置 文 件 的 位 置 ， 程 序 将 自动 读 取 HBase-0.92.1.jar 文 件 中 默认 
的 配置 文件 ， 这 样 可 能 与 自己 的 预期 有 一 定 的 差距 。 大 家 还 可 以 通过 程序 来 进行 HBase 的 配 
置 ， 例 如 若 要 设置 ZooKeeper 集 群 的 位 置 ， 可 在 HBase 的 Configuration 中 做 如 下 配置 
eee 

Configuration config=HBaseConfiguration.create () ; 


config.set ("hbase.zookeeper.quorum", "master, slavel, 
slave2") ; 


A 











上 述 代码 设置 HBase 所 运行 的 ZooKeeper 集 群 的 位 置 为 master、slave1 和 slave2。 





12.9.2 ”HBase 编 程 











在 12.8 节 中 ， 我 们 已 经 对 常用 的 HBase API 进 行 了 简单 的 介绍 。 下 面 我 们 给 出 一 个 简单 
的 例子 ， 希 望 大 家 通过 学 习 这 个 例子 能 对 HBase 的 使 用 方法 及 特点 有 一 个 更 深入 的 认识 。 示 
例 代码 如 代码 清单 12-2 所 示 。 



































代码 清单 12-2 HBase Java API 简 单 用 例 








[| 
package cn.edn.ruc.clodcomputing.book.chapter12; 


import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.HColumnDescriptor; 
import org.apache.hadoop.hbase.HTableDescriptor; 

9 import org.apache.hadoop.hbase.client.Get; 

10 import org.apache.hadoop.hbase.client.HBaseAdmin; 
11 import org.apache.hadoop.hbase.client.HTable; 

12 import org.apache.hadoop.hbase.client. Put; 

13 import org.apache.hadoop.hbase.client.Result; 

14 import org.apache.hadoop.hbase.client.ResultScanner; 
15 import org.apache.hadoop.hbase.client.Scan; 

16 import org.apache.hadoop.hbase.util.Bytes; 


18 

19 public class HBaseTestCase{ 

20// 声 明 静 态 配置 HBaseConfiguration 

21 static Configuration cfg=HBaseConfiguration.create () ; 

22 

23// 创 建 一 张 表 ， 通 过 HBaseAdmin HTableDescriptor 来 创建 

24 public static void creat (String tablename, String 
columnFamily) throws 

Exception{ 

25 HBaseAdmin admin=new HBaseAdmin (cfg) ; 

26 if (admin.tableExists (tablename) ) { 

27 System.out.println ("table Exists! ") ; 

28 System.exit (0); 

29} 

30 else{ 

31 HTableDescriptor tableDesc=new 
HTableDescriptor (tablename) ; 


32 tableDesc.addFamily (new 
HColumnDescriptor (columnFamily) ) ; 

33 admin.createTable (tableDesc) ; 

34 System.out.println ("create table success! ") ; 

35} 

36} 

gT 

38// 添 加 一 条 数据 ， 通 过 HTable Put 为 已 经 存在 的 表 来 添加 数据 

39 public static void put (String tablename, String row, 
String columnFamily, 

String column, String data) throws Exception{ 

40 HTable table=new HTable (cfg, tablename) ; 

41 Put pl=new Put (Bytes.toBytes (row) ) ; 

42 pl.add (Bytes.toBytes (columnFamily) ， 
Bytes.toBytes (column) ， 

Bytes.toBytes (data) ) ; 

43 table.put (pl); 


44 
System.out.println ("put'"+row+"', '"+columnFamily+": "+column+"', 
™idatat"'") ; 
45} 
46 


47 public static void get (String tablename, String row) 
throws IOException{ 

48 HTable table=new HTable (cfg, tablename) ; 

49 Get g=new Get (Bytes.toBytes (row) ) ; 

50 Result result=table.get (g) ; 

51 System.out.println ("Get: "+result) ; 

32} 

53// 显 示 所 有 数据 ， 通 过 HTable Scan 来 获取 已 有 表 的 信息 

54 public static void scan (String tablename) throws 
Exception{ 

55 HTable table=new HTable (cfg, tablename) ; 

56 Scan s=new Scan () ; 

57 ResultScanner rs=table.getScanner (s) ; 

58 for (Result r: rs) { 

59 System.out.println ("Scan: "+r) ; 

60} 

61} 

62 

63 public static boolean delete (String tablename) throws 
IOException{ 

64 

65 HBaseAdmin admin=new HBaseAdmin (cfg) ; 

66 if (admin.tableExists (tablename) ) { 

67 try 

68{ 


69 admin.disableTable (tablename) ; 
70 admin.deleteTable (tablename) ; 
71}catch (Exception ex) { 
72 ex.printStackTrace () ; 
73 return false; 
74} 
AI 
76} 
77 return true; 
78} 
79 
80 public static void main (String[]agrs) { 
81 String tablename="hbase_tb"; 
82 String columnFamily="cf"; 
83 
84 try{ 
85 HBaseTestCase.creat (tablename, columnFamily) ; 
86 HBaseTestCase.put (tablename, "row1", 
columnFamily, "cll", "data") ; 
87 HBaseTestCase.get (tablename, "rowl") ; 
88 HBaseTestCase.scan (tablename) ; 
89 if (true==HBaseTestCase.delete (tablename) ) 
90 System.out.println ("Delete 
table: "+tablename+"success! ") ; 
91 
92} 
93 catch (Exception e) { 
94 e.printStackTrace O) ; 
95} 
96} 
97} 


TTT | 


在 该 类 中 ， 实 现 了 类 似 HBase Shell 的 表 创建 (creat (String tablename, String 





columnFamily ) ) 操作 ， 以 及 Put、Get、Scan 和 delete 操 作 。 





在 代码 清单 12-2 中 ， 首 先 ， 通 过 第 21 行 加 载 HBase 的 默认 配置 cfg， 然后 ， 通 过 
HbaseAdmin 接 口 来 管理 现 有 数据 库 ， 见 第 25 行 ， 第 26 一 36 行 通过 HTableDescriptor GREK 
相关 信息 ) 和 HColumnDescriptor 〈 指 定 表 内 列 族 相关 信息 ) 来 创建 一 个 HBase 数 据 库 ， 并 设 
置 其 拥有 的 列 族 成 员 ，put 函 数 通过 HTable 和 Put 类 为 该 表 添加 值 ， 见 第 38 一 44 行 ， get 函数 通 
过 HTable 和 Get 读 取 刚 刚 添 加 的 值 ， 见 第 47 一 52 行 ;Scan 函数 通过 HTable 和 Scan 类 读 取 表 中 




















的 所 有 记录 ， 见 第 54 一 61 行 ，delete 函 数 ， 通 过 HBaseAdmin 首 先 将 表 置 为 无 效 〈 第 69 行 ) ， 
然后 将 其 删除 〈 第 70 行 ) 。 














该 程序 在 Eclipse 中 的 运行 结果 如 下 所 示 : 
一 








create table success! 

put'rowl', 'cf: cll', 'data' 

Get: keyvalues={rowl/cf: cl1/1336632861769/Put/vlen=4} 
Scan: keyvalues={rowl/cf: cl1/1336632861769/Put/vlen=4} 





12/05/09 23: 54: 21 INFO client.HBaseAdmin: Started disable of 


hbase_tb 
12/05/09 23: 54: 23 INFO client.HBaseAdmin: Disabled hbase_tb 
12/05/09 23: 54: 24 INFO client.HBaseAdmin: Deleted hbase_tb 
Delete table: hbase tb success! 


一 一 一 一 一 一 一 





12.9.3 HBase 与 MapReduce 





从 图 12-1 中 可 以 看 出 ， 在 伪 分 布 模式 和 完全 分 布 模式 下 HBase 是 架构 在 HDFS 之 上 的 。 因 
此 完全 可 以 将 MapReduce 编 程 框架 和 HBase 结 合 起 来 使 用 。 也 就 是 说 ， 将 HBase 作 为 底层 “ 存 
储 结构 "，MapReduce 调 用 HBase 进 行 特 殊 的 处 理 ， 这 样 能 够 充分 结合 HBase 分 布 式 大 型 数据 
库 和 MapReduce 并 行 计算 的 优点 。 





















































下 面 我 们 给 出 了 一 个 WordCount 将 MapReduce 与 HBase 结 合 起 来 使 用 的 例子 ， 如 代码 清单 
12-3 所 示 。 在 这 个 例子 中 ， 输 入 文件 为 user/hadoop/input/file01( 它 包含 内 容 hello world bye 





world) 和 文件 user/hadoop/input/file02 它 包含 内 容 hello hadoop bye hadoop) 。 


E 





Jr 


程序 首先 从 文件 
到 HBase 中 。 





改 集 数据 ， 在 shuffle 完 成 之 后 进行 统计 并 计算 ， 最 后 将 计算 结果 存储 








H 














代码 清单 12-3 HBase 与 WordCount 的 结合 使 








| 
package cn.edn.ruc.cloudcomputing.book.chapter12; 


import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.HColumnDescriptor; 
9 import org.apache.hadoop.hbase.HTableDescriptor; 
10 import org.apache.hadoop.hbase.client.HBaseAdmin; 
11 import org.apache.hadoop.hbase.client.Put; 
12 import 
org.apache.hadoop.hbase.mapreduce.TableOutputFormat; 
13 import org.apache.hadoop.hbase.mapreduce.TableReducer; 
14 import org.apache.hadoop.hbase.util.Bytes; 
15 import org.apache.hadoop.io.IntWritable; 
16 import org.apache.hadoop.io.LongWritable; 
17 import org.apache.hadoop.io.NullWritable; 
18 import org.apache.hadoop.io.Text; 
19 import org.apache.hadoop.mapreduce.Job; 
20 import org.apache.hadoop.mapreduce.Mapper; 
21 import 


BIDUOBWNE 


org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

22 import 
org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 

23 

24 public class WordCountHBase 

25{ 

26 public static class Map extends Mapper<LongWritable, 
Text, Text, IntWritable>{ 

27 private IntWritable i=new IntWritable (1); 

28 public void map (LongWritable key, Text value, Context 
context) throws 

IOException, InterruptedException{ 

29 String s[]=value.toString () .trim © .split ("") ; // 将 输入 的 
每 

行 输入 以 空格 分 开 

30 for (String m: s) { 

31 context.write (new Text (m), i); 

32} 

33} 

34} 

35 

36 public static class Reduce extends TableReducer<Text, 
IntWritable, 

NullWritable>{ 

37 public void reduce (Text key, Iterable<IntWritable> 
values, Context 

context) throws IOException, InterruptedException{ 

38 int sum=0; 

39 for (IntWritable i: values) { 

40 sumt=i.get (); 

41} 

42 Put put=new Put (Bytes.toBytes (key.toString © ) ) ; //Put 实 
例 

化 ， 每 一 个 词 存 一 行 

43 put.add (Bytes.toBytes ("content") ， 
Bytes.toBytes ("count") , Bytes. 

toBytes (String.valueOf (sum) ) ) ; // 列 族 为 content， 列 修饰 符 为 
count， 列 

值 为 数目 

44 context .write (NullWritable.get () put); 

45} 

46} 

47 

48 public static void createHBaseTable (String tablename) 
throws IOException{ 

49 HTableDescriptor htd=new HTableDescriptor (tablename) ; 

50 HColumnDescriptor col=new HColumnDescriptor ("content: ") ; 


51 htd.addFamily (col) ; 

52 HBaseConfiguration config=new HBaseConfiguration O) ; 

53 HBaseAdmin admin=new HBaseAdmin (config) ; 

54 if (admin.tableExists (tablename) ) { 

55 System.out.printlin ("table exists, trying recreate 
table! "); 

56 admin.disableTable (tablename) ; 

57 admin.deleteTable (tablename) ; 

58} 

59 System.out.printin ("create new table: "+ttablename) ; 

60 admin.createTable (htd) ; 

61} 

62 

63 public static void main (String args[]) throws Exception{ 

64 String tablename="wordcount"; 

65 Configuration conf=new Configuration O) ; 

66 conf.set (TableOutputFormat.OUTPUT TABLE, tablename) ; 

67 createHBaseTable (tablename) ; 

68 String input=args[0]; // 设 置 输入 值 

69 Job job=new Job (conf, "WordCount table with"+input) ; 

70 job.setJarByClass (WordCountHBase.class) ; 

71 job.setNumReduceTasks (3) ; 

72 job.setMapperClass (Map.class) ; 

73 job.setReducerClass (Reduce.class) ; 

74 job.setMapOutputKeyClass (Text.class) ; 

75 job.setMapOutputValueClass (IntWritable.class) ; 

76 job.setInputFormatClass (TextInputFormat.class) ; 

77 job.setOutputFormatClass (TableOutputFormat.class) ; 

78 FileInputFormat.addInputPath (job, new Path (input) ); 

79 System.exit (job.waitForCompletion (true) ?0: 1); 

80} 

81} 


一 二 == 二 === 

在 上 述 程序 中 ， 第 26 一 34 行 代码 负责 设置 Map 作 业 ， 第 36 一 46 行 代码 负责 设置 Reduce 作 
Mk; 第 48 一 61 行 代码 为 createHBaseTable 函 数 ， 负 责 在 HBase 中 创建 存储 WordCount 输 出 结果 
的 表 。 在 Reduce 作 业 中 ， 第 42 一 44 行 代码 负责 将 结果 存储 到 HBase 表 中 。 





H 











程序 运行 成 功 后 ， 现 在 通过 HBase Shell 检 查 输出 结果 ， 如 图 12-16 所 示 。 


in “wordcownt ‘ 
COLUMN CELL 


mtant:count, timestamp=1297571301451 
columnecontent-count, tisestamp-12975 


colunn=content << , timestamp=L 


column=content :ec t, tisestamp=1 





4 rowls) in 6.0398 seconds 


图 12-16 HBase WordCount 的 运行 结果 








从 输出 结果 中 可 以 看 出 ，bye、hadoop、hello、world 四 个 单词 均 出 现 了 两 次 。 


























关于 HBase 与 MapReduce 实 际 应 用 的 更 多 详细 信息 请 参阅 
http: //wiki.apache.org/hadoop/Hbase/MapReduce. 








12.10 ”模式 设计 


HBase 与 RDBMS 的 比较 ， 





可 以 了 解 到 二 者 无 论 是 在 物理 视图 、 逻 辑 视图 还 是 具体 操 








作 上 都 存在 很 大 的 区 别 。 例 如 ，HBase 中 没有 Join 的 概念 。 但 是 ， 大 表 的 结构 可 以 使 其 不 需要 


Join 操 作 就 能 解决 Join 操 人 


E 所 解决 的 问题 。 比 如 ， 在 一 条 行 记录 加 上 一 个 特定 的 行 关 键 字 ， 便 








可 以 实现 把 所 有 关于 Join 的 数据 合并 在 一 起 。 另 外 ，Row Key 的 设计 也 非常 关键 。 以 天 气 数 
据 存储 为 例 。 假 如 将 监测 站 的 值 作为 Row Key 的 前 比 ， 那 么 天 气 数据 将 以 监测 站 聚 簇 存 放 。 
同时 将 倒序 的 时 间作 为 监测 站 的 后 级 ， 那 么 同一 监测 站 的 数据 将 从 新 到 旧 进 行 排列 。 这 样 的 

















特定 存储 功能 可 以 满足 用 户 特殊 的 需要 。 


一 般 来 说 HBase 的 









































使 用 是 为 了 解决 或 优化 某 一 问题 ， 恰 当 的 模式 设计 可 以 使 其 具有 


HBase 本 身 所 不 具有 的 功能 ， 并 且 使 其 执行 效率 得 到 成 百 上 千 倍 的 提高 。 
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10.1 


模式 设计 应 遵循 的 原则 


在 进行 HBase 数 据 库 模 式 设计 的 时 候 ， 不 当 的 设置 可 能 对 系统 的 性 能 产生 不 良 的 影响 。 
当 数 据 量 比较 小 的 时 候 ， 表 现 可 能 并 不 明显 ， 但 随 着 数据 量 的 增加 这 些微 小 的 差别 将 有 可 能 
对 系统 的 性 能 产生 很 大 的 影响 。 有 下 面 几 点 需要 特别 注意 。 


1. 殉 


我 人 





族 的 数量 及 列 族 的 势 


建 


= 








将 HBase 列 族 的 数量 设置 得 越 少 越 好 。 当 前 ， 对 于 两 个 或 两 个 以 上 的 列 族 





HBase 并 不 能 处 理 得 很 好 。 这 是 由 于 HBase 的 Flushing 冲洗 ， 即 将 内 存 中 的 数据 写 入 磁盘 ) 
和 压缩 是 基于 Region 的 。 当 一 个 列 族 所 存储 的 数据 达到 Flushing 的 阔 值 时 ， 该 表 中 的 所 有 列 族 


将 
于 





HEY 


同时 进行 Fls 
压缩 也 是 同样 的 道理 。 











， 还 要 考虑 到 同一 个 表 








ing 操 作 。 这 将 带 来 不 必要 的 VO 开销 ， 列 族 越 多 ， 该 特性 带 来 的 影响 越 大 。 对 


bh 不 同 列 族 所 存储 的 记录 数量 的 差别 ， 即 列 族 的 势 


(Cardinality ) 。 当 两 个 列 族 数量 差别 过 大 时 将 会 使 包含 记录 数量 较 少 列 族 的 数据 分 散在 多 





个 Region 之 上 ， 而 Region 有 可 能 存储 在 不 同 的 Regionserver 之 上 。 这 样 ， 当 进行 查询 或 scan 操 
作 的 时 候 ， 系 统 的 效率 会 受到 一 定 的 影响 。 该 影响 的 大 小 要 视 具体 的 情况 而 定 。 


2. 行 键 (Row Key) 的 设计 




















首先 ， 应 该 避免 使 用 时 序 或 单调 (递增 /递减 ) 行 键 。 因 为 当 数 据 到 来 的 时 候 ，HBase 首 
先 需 要 根据 记录 的 行 键 来 确定 存储 的 位 置 ， 即 Region 的 位 置 。 如 果 使 用 时 序 或 单调 行 键 ， 那 
么 连续 到 来 的 数据 将 会 被 分 配 到 同一 个 Region 当 中 ， 而 此 时 系统 中 的 其 他 
Region/Regionserver 将 处 于 空闲 状态 ， 这 是 分 布 式 系统 最 不 希望 看 到 的 情况 。 如 果 必 须 存储 
这 种 类 型 的 数据 ， 例 如 时 序 值 ， 那 么 该 怎么 办 呢 ? 在 OpenTSB 中 ， 行 键 的 设计 如 下 所 示 : 
































[metric type] [event_timestamp] 


上 述 方法 将 时 序 Cevent_timestamp) 作为 行 键 的 第 二 个 “字段 "， 并 为 行 键 添加 一 个 前 
级 。 但是， 具体 选择 什么 样 的 规则 来 创建 行 键 也 需要 视 情 况 而 定 ， 没 有 万 能 的 规则 。 





7A 
地 
= 


化 行 键 和 列 族 的 大 小 





在 HBase 中 ， 一 个 具体 的 值 由 存储 该 值 的 行 键 、 对 应 的 列 〈 列 族 : 列 ) 以 及 该 值 的 时 间 
截 决 定 。HBase 中 的 索引 是 为 了 加 速 随机 访问 的 速度 。 该 索引 的 创建 是 基于 “ 行 键 + 列 族 : 列 
+ 时 间 戳 + 值 "的 ， 如 果 行 键 和 列 族 的 大 小 过 大 ， 甚 至 超过 值 本 身 的 大 小 ， 那 么 将 会 增加 索引 
的 大 小 。 并 且 ， 在 HBase 中 数据 记录 往往 非常 之 多 ， 重 复 的 行 键 、 列 将 不 但 使 得 索引 的 大 小 
过 大 ， 也 将 加 重 系统 存储 的 负担 。 









































4. 版 本 的 数量 





HBase 在 进行 数据 存储 的 时 候 ， 新 的 数据 并 不 会 直接 覆盖 旧 的 数据 ， 而 是 进行 追加 操 
作 ， 不 同 的 数据 通过 时 间 惟 进行 区 分 。 默 认 情况 下 ， 每 行 数据 存 储 三 个 版 本 ， 该 值 可 以 通过 
HColumnDescriptor 进 行 设 置 ， 建 议 不 要 将 其 设置 得 过 大 。 











下 面 我 们 通过 两 个 例子 ， 让 读者 对 HBase 的 模式 设计 有 一 个 初步 的 认识 。 


12.10.2 学生 表 








这 里 我 们 以 学 习 数 据 库 过 程 中 常用 的 一 个 学 生 表 为 例 来 讲解 模式 设计 。 众 所 周知 ， 在 关 
系 型 数据 库 (RDBMS) 中 学 生 表 的 表 结构 如 表 12-15 一 表 12-17 所 示 。 


























表 12-15 学 生 表 (Student) 


PR 


描述 





C_Name C Credit 
课程 名 学 分 













SC _ Score 


成 线 








那么 在 HBase 中 ， 数 据 存储 的 模式 将 如 表 12-18 和 表 12-19 所 示 。 


表 12-18 HBase 中 的 Student 表 


5 Column Family Column Family 
Row Key 











| info | value | course value 

<$_No> info:$_Name the name course:<C_No> SC Score> 
info:S_ Sex the sex seese seese 
info:S_Age the age 





表 12-19 HBase 中 的 Course 表 


n Column Family Column Family 

















ow Key 
| info | value | student value 
C No> info:C_Name the name student:<S_No> ~ Score> 
a info:C Credit the credit see 








从 上 面 的 5 个 表 中 可 以 看 出 ， 在 RDBMS 中 可 以 完成 的 操作 ， 在 HBase 中 不 但 可 以 完成 ， 

















还 可 以 有 更 好 的 执行 效率 。 在 HBase 中 Row Key 是 索引 ， 因 此 在 HBase 中 对 数据 进行 查询 ， 











能 够 比 RDBMS 有 更 大 的 速度 优势 。 


12.10.3 ”事件 表 


首先 我 们 给 出 时 间 表 在 RDBMS 中 的 表 结构 ， 如 表 12-20 所 示 。 





表 12-20 事件 表 (Action) 





rR Ald A_Userld A_Name A Time 
述 事件 ID 用 户 1D 事件 名 称 事件 发 生 时 间 























上 述 事件 表 存 储 了 所 有 用 户 所 发 生 的 事件 信息 ， 包 括 事件 名 称 和 事件 发 生 的 时 间 。 
HBase 一 般 针 对 某 一 特殊 的 应 用 存储 数据 ， 因 此 我 们 需要 首先 确定 用 户 的 需求 。 假 如 用 户 的 
需求 描述 如 下 : 查询 某 一 用 户 最 近 发 生 的 10 个 事件 。 那 么 ，RDBMS 的 SQL 查询 语句 如 下 : 











































































































ae 
SELECT A_Id, A_UserId, A Name, A Time From Action WHERE 

A_UserId=***ORDER BY A Time DESC LIMIT 10 

OO 














fEHBase'H AY T IRAR A ae, LCE hs BER Ba DFR Ty ET, HA 
照 事件 发 生 的 时 间 倒 序 排列 。 那 么 在 HBase 中 将 有 下 面 的 存储 模式 ， 如 表 12-21 所 示 。 























表 12-21 HBase 中 Action 表 


Column Family 


Row Key | 





A_Name | value 





<A_Userld><Long.Max_Value-System.currentTimeMills(}><A_Id> A_Name the name 








从 上 表 中 可 以 看 出 ， 数 据 已 经 按照 要 求 从 簇 存放 ， 查 询 速度 必然 要 优 于 RDBMS。 


12.11 本 章 小 结 


本 章 向 大 家 介绍 了 HBase， 包 括 HBase 的 特点 、 基 本 操作 、 体 系 结构 、 数 据 模型 、 它 与 
其 他 相关 产品 的 关系 ， 以 及 如 何 使 用 HBase 编 程 、 设 计 表 等 内 容 。 





























通过 本 章 ， 大 家 可 以 了 解 到 ，HBase 是 一 个 开源 的 、 分 布 式 的 、 多 版 本 的 、 面 向 列 的 存 
储 模型 。 它 与 传统 的 关系 型 数据 库 有 着 本 质 的 不 同 ， 并 且 在 某 些 场合 中 ，HBase 拥 有 其 他 数 
据 库 所 不 具有 的 优势 。 它 为 大 型 数据 的 存储 和 某 些 特殊 应 用 提供 了 很 好 的 解决 方案 。 























另外 ，HBase 具 有 三 种 运行 模式 。 其 中 ， 伪 分 布 模式 和 完全 分 布 模式 需要 以 HDFS 作 为 其 
文件 存储 系统 。 因 此 HBase 可 以 有 效 地 与 MapReduce 结 合 起 来 使 用 ， 充 分 发 挥 二 者 的 优势 。 























本 章 为 大 家 介绍 了 如 何 配 置 IDE 进 行 HBase 编 程 ， 同 时 给 出 了 几 个 简单 的 编程 实例 ， 除 此 之 
外 ， 还 为 大 家 简单 比较 了 HBase 的 模式 与 传统 RDBMS 模 式 设计 的 异同 之 处 。 








希望 通过 对 本 章 的 学 习 ， 能 够 让 大 家 对 HBase 有 一 个 全 面 、 综 合 的 了 解 。 限 于 篇 幅 ， 未 
能 深入 地 讲解 HBase 相 关 的 知识 ， 更 多 的 内 容 ， 大 家 可 以 到 HBase 官 方 网 站 查阅 ， 网 址 为 : 
http: //hbase.apache.org/。 男 外 ， 我 们 还 希望 读者 能 够 阅读 HBase 的 源码 ， 这 样 会 对 HBase 的 
深层 机 制 有 更 深入 的 理解 。 
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本 章 小 结 


13.1 Mahout 简 介 











Apache Mahout 起 源 于 2008 年 ， 当 时 它 是 Apache Lucene 的 子 项 目 。 使 用 Apache Hadoop 
库 ， 可 以 将 其 功能 有 效 地 扩展 到 Apache Hadoop 云 平台 中 。Apache Lucene 是 一 个 著名 的 开源 
搜索 引擎 ， 它 实现 了 先进 的 信息 检索 、 文 本 挖掘 功能 。 在 计算 机 科学 领域 中 ， 这 些 概 念 与 机 
器 学 习 技术 相近 。 正 是 由 于 这 种 原因 ， 一 些 Apache Lucene 的 开发 者 最 终 转 入 开发 机 器 学 习 
算法 中 来 。 进 而 ， 这 些 机 器 学 习 算法 形成 了 最 初 的 Apache Mahout。 不 久 以 后 ，Apache 
Mahout 吸 收 了 一 个 名 为 Taste 的 开源 协同 过 滤 算 法 的 项 目 ， 经 过 两 年 的 发 展 ，2010 年 4 月 
Apache Mahout 最 终 成 为 了 Apache 的 顶级 项 目 。 



































Apache Mahout 的 主要 目标 是 建立 可 伸缩 的 机 器 学 习 算 法 。 这 种 可 伸缩 性 是 针对 大 规模 
的 数据 集 而 言 的 。Apache Mahout 的 算法 运行 在 Apache Hadoop 平 台 下 ， 它 通过 MapReduce 模 
式 实现 。 但 是 ，Apache Mahout 并 不 严格 要 求 算法 的 实现 要 基于 Hadoop 平 台 ， 单 个 节点 或 非 
Hadoop 平 台 也 可 以 。Apache Mahout 核 心 库 的 非 分 布 式 算法 也 具有 良好 的 性 能 。 





Apache Mahout 是 Apache Software Foundation (ASF) 旗下 的 一 个 开源 项 目 ， 提 供 了 一 些 
经 典 的 机 器 学 习 算法 ， 旨 在 帮助 开发 人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。 该 项 目 已 经 发 
展 到 了 它 的 第 三 个 年 凑 ， 有 了 三 个 公共 发 行 版 本 。Apache Mahout 项 目 包含 聚 类 、 分 类 、 推 
着 引擎 、 频 繁 子 项 挖掘 。Apache Mahout 虽 已 经 实现 了 很 多 技术 和 算法 ， 但 是 仍然 还 有 一 些 
算法 正在 开发 和 测试 阶段 。 目 前 Apache Mahout 项 目 主要 包括 以 下 五 个 部 分 。 


























频繁 模式 挖掘 : 挖掘 数据 中 频繁 出 现 的 项 集 。 





RK: 将 诸如 文本 、 文 档 之 类 的 数据 分 成 局 部 相关 的 组 。 























分 类 : 利用 已 经 存在 的 分 类 文档 训练 分 类 器 ， 对 未 分 类 的 文档 进行 分 类 。 


























推荐 引擎 〈 协 同 过 滤 ) : 获得 用 户 的 行为 并 从 中 发 现 用 户 可 能 喜欢 的 事物 。 
































频繁 子 项 挖掘 : 利用 一 个 项 集 〈 查 询 记录 或 购物 目录 ) 去 识别 经 常 一 起 出 现 的 项 目 。 





13.2 ”Mahout 的 安装 和 配置 





Mahout 是 一 个 开源 软件 ， 因 此 它 有 两 种 安装 方式 : 一 种 是 下 载 已 经 编译 好 的 二 进 制 文件 
进行 安装 《快速 安装 ) ， 一 种 是 先 下 载 源 代 码 ， 然 后 再 对 源 代 码 进行 编译 ， 最 后 再 安装 〈 编 
译 安装 ) 。 下 面 我 们 分 别 对 其 进行 介绍 。 





1. 快 速 安装 


下 面 为 该 方式 的 具体 安装 步 又; 


(1) 下 载 Mahout 


H 








从 下 面 链接 中 下 载 编译 好 的 二 进 制 文件 : 


| 
http: //mirror.bjtu.edu.cn/apache/mahout/ 
| 





选择 最 新 的 版 本 目录 ， 即 0.6， 下 载 mahout-distribution-0.6.targz。 


D) 解压 下 载 的 文件 














使 用 下 面 的 命令 将 下 载 的 二 进 制 文件 解压 到 指定 的 文件 夹 中 。 


| 
tar-zxvf mahout-distribution-0.6.tar.gz-C$HADOOP_HOME/ 


TTT | 











参数 -C 的 后 面 是 指定 的 文件 夹 ， 这 里 是 SHADOOP_HOME/。 


(3) 配置 环境 变量 




















日 于 Mahout 不 仅 可 以 在 本 地 模式 下 运行 ， 还 可 以 利用 Hadoop 的 MapReduce 运 行 作业 。 若 
要 使 用 Hadoop 则 必须 正确 安装 Hadoop， 并 配置 HADOOP_HOME 和 HADOOP_CONF_DIR 环 
境 变量 ， 具 体 参 见 本 书 第 2 章 “Hadoop 的 安装 与 配置 ”。 









































使 用 下 面 的 命令 配置 Mahout 所 需要 的 Hadoop 环 境 变量 : 





r= = === 
export HADOOP HOME=/home/hadoop/hadoop-1.0.1 
export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.0.1/conf 


| 


此 外 ， 为 了 Mahout 操 作 方便 ， 可 以 将 Mahout 安 装 位 置 加 入 到 环境 变量 中 ， 如 下 所 示 : 





wooo 
#Config Mahout 
export MAHOUT_HOME=/home/hadoop/hadoop-1.0.1/mahout- 
distribution-0.6 
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf 
export PATH=S$MAHOUT_HOME/conf: $MAHOUT_HOME/bin: $PATH 


一 
2. 编 译 安装 


首先 需要 确保 系统 中 已 经 安装 了 JDK 1.6 以 上 版 本 及 Maven 2.0 以 上 版 本 。JDK 的 安装 前 
面 章 节 已 经 详细 介绍 ， 这 里 不 再 袭 述 。 大 家 可 以 使 用 下 面 命令 来 安装 Maven: 




















| 
sudo apt-get install maven2 
————————————————— I 




















安装 完成 后 ， 可 以 对 maven 的 参数 进行 配置 ， 设 置 其 使 用 的 Java 堆 空间 : 


1 
sudo gedit$MAVEN_HOME/bin/mvn 
eo ooeaeaeaeananaoy*leeee ee 





在 mvn 文 件 中 找到 exec"$JAVACMDA， 在 它 之 后 加 上 -Xmx256m'\ 即 可 ， 如 下 所 示 : 


eee 
exec" SJAVACMD"\ 
-Xmx256m\ 
SMAVEN_OPTS\ 
-classpath"${M2_HOME}"/boot/classworlds.jar\ 
"-Dclassworlds.conf=${M2_HOME}/bin/m2.conf"\ 
"-Dmaven.home=${M2_HOME}"\ 
${CLASSWORLDS LAUNCHER}$QUOTED_ ARGS 


| 








其 中 参数 -Xmx256m 指 定 的 是 Java 的 空间 大 小 ， 读 者 可 以 根据 具体 情况 进行 设置 。 下 面 
为 具体 的 操作 步 又: 











) 下 载 最 新 源码 


tt 





通过 Mahout 的 svn 库 来 下 载 当前 Mahout 的 最 新 版 本 ，Mahout 将 被 下 载 到 当前 目录 中 : 
| 


svn co http: //svn.apache.org/repos/asf/mahout/trunk 
eee 


(2) 执行 安装 
进入 Mahout 的 根 目录 ， 输 入 命令 安装 : 
天 一 


cd trunk 
mvn install 


es | 
看 到 如 下 结果 ， 则 表明 安装 成 功 。 


INFO]Apache Mahout.....SUCCESS[8.871s] 
INFO]Mahout Build Tools.....SUCCESS[2.696s] 
INFO]Mahout Math.....SUCCESS[39.651s] 
INFO]Mahout Core.....SUCCESS[54: 46.562s] 
INFO]Mahout Integration.....SUCCESS[3: 47.980s] 
INFO]Mahout Examples.....SUCCESS[27.877s] 
INFO]Mahout Release Package.....SUCCESS[0.152s] 











INFO]Total time: 59 minutes 55 seconds 


[INFO] Finished at: Tue Jun 05 00: 07: 53 PDT 2012 
{INFO]Final Memory: 67M/142M 
[INFO]------------------------------------------------------- 





该 命令 将 会 自动 编译 core 和 example 目 录 并 将 其 打包 。 从 上 面 可 以 看 到 Mahout 的 安装 花 
费时 间 较 长 ， 这 主要 是 由 于 执行 testing 部 分 的 操作 ， 使 用 下 面 命令 可 以 略 过 此 测试 部 分 : 



































下 
mvn-DskipTests install 


1 














注意 采用 svn 下 载 的 Mahout 最 新 源码 有 诸多 好 处 ， 例 如 可 以 在 
$SMAHOUT_HOME/examples/src 目 录 下 查看 Mahout 许 多 算法 实现 的 源码 。 另 外 ， 此 版 本 中 还 
保留 了 很 多 Mahout 测 试 使 用 的 数据 ， 例 如 8MAHOUT_HOME/core/src/test/resources/ 目 录 下 
FPGrowth 算 法 使 用 的 零售 商 数据 。 


















































(3) 配置 环境 变量 


环境 变量 的 配置 与 快速 安装 相同 ， 这 里 不 再 烤 述 。 


3. 验 证 是 否 安装 成 功 




















我 们 可 以 使 用 如 下 命令 来 检查 Mahout 是 否 安装 成 功 : 


| 
bin/mahout-help 
一 


如 果 安 装 成 功 ， 系 统 会 自动 列 出 Mahout 已 经 实现 的 所 有 命令 ， 如 图 13-1 所 示 。 
至 此 Mahout 安 装 完毕 。 


Mahout 自 带 了 一 些 示例 程序 ， 执 行 下 面 的 Hadoop 命 令 ， 可 以 运行 Canopy 算 法 示例 : 


= = 
bin/hadoop jar$MAHOUT HOME/mahout-examples-0.6.job 
org.apache.mahout.clustering. 


syntheticcontrol.canopy.Job 


are 

tor: : Generate Vectors from an ARFF file or directory 
bauewelch: : Baun-Melch algorithe for un: HM training 
canopy: : Canopy clustering 


leansvd: c 
erdump: ; Dump cluster o t 
clusterpp: : Groups ring Outpet In Clusters 
p confusion matrix in HTML or text 
LDA via Collapsed Vari 
acal: : LOA via C 
Dirichlet 
@igencuts: : Eigencuts sp 5 ing 
eval factorization: = Compute RMSE and MAE of ng ® ctorization against 
22Y K-means clustering 
Frequent Pattern Growt 


milarity: apute the ites collaborative filtering 
: K-means Clustering 
Latent Dirc 
rs from a Lucene index 
format 
aduct of two matrices 
Lustering 
sh clustering 
the PageRank of 3 graph 
ALS-WR factorization of a rating matrix 
5 Reformat 
emsa lkuithrestart 
recomendfactoriz 
recommenditenbased: : Compute r a 
req rter: onvert text files on a per line basis bas: f ons 
rowid Map + flecText, Ve acer ite `] Witable>, Sequenc 
rowsini la : Compute the e rous of a matrix 





seq2encoded 


图 13-1 Mahout 实 现 命令 图 





转 到 Mahout 安 装 目录 下 ， 运 行 以 下 命令 可 以 将 结果 直接 显示 在 控制 台 上 : 


TTT | 


bin/mahout vectordump--seqFile/user/hadoop/output/data/part- 
00000 


| 


13.3 Mahout API 简 介 


当前 Mahout 最 新 版 本 的 API 为 Mahout Core 0.7-SNAPSHOT API!!] ， 它 主要 可 以 分 为 以 


下 几 部 分 : 8 


基于 协同 过 滤 的 Taste 相 关 的 API， 包 名 以 org.apache.mahoutcftaste 开 始 ; 


聚 类 算法 相关 的 API， 包 名 以 org.apache.mahoutclustering 开 始 ; 


DRIVE, (1% Vorg.apache.mahout.classifier J 44; 


频繁 模式 算法 ， 包 名 以 org.apache.mahout.fpm 开 始 ; 


数学 计算 相关 算法 ， 包 名 以 org.apache.mahout.math 开 始 ; 


向 量 计算 相关 算法 ， 包 名 以 org.apache.mahout.vectorizer 开 始 。 


在 新 的 版 本 中 ，Mahout 已 经 实现 了 数据 挖掘 中 较 常 见 算法 ， 包 括 : 频繁 模式 挖掘 、 聚 
类 、 分 类 以 及 推荐 引擎 ， 另 外 ， 还 实现 了 数据 挖掘 中 常用 的 预 处 理 算 法 。 


























Apache Mahout 已 经 实现 的 聚 类 算法 有 : Canopy 聚 类 算法 、K-Means 聚 类 算法 、 模 糊 K- 
Means 聚 类 算法 、Mean Shift 聚 类 算法 、Dirichlet 过 程 聚 类 算法 和 Latent Dirichlet Allocation 聚 
类 算法 。 这 些 算法 相关 的 API 都 可 以 在 org.apache.mahout.clustering 包 中 找到 。 





下 面 以 K-Means 算 法 为 例 进行 介绍 。K-Means 算 法 的 API 在 





org.apache.mahout.clustering.kmeans 包 中 





- 共 包含 1 个 接口 和 3 个 类 (2) 。 它 们 分 别 是 


KMeansConfigKeys、 KCluster、 KMeansDriver 和 Random SeedGenerator 


1.KMeansConfigKeys 接 口 


接口 KMeansConfigKeys 一 共有 三 个 参数 : DISTANCE MEASURE KEY、 


CLUSTER CONVERGENCE_KEY、CLUSTER PATH_KEY， 每 个 参数 的 具体 意义 如 表 13-1 


所 示 。 


表 13-1 接口 K-MeansConfigKeys 参数 表 
Ss & 功 能 
DISTANCE MEASURE KEY K-Means 聚 类 算法 使 用 的 距离 测量 方法 
CLUSTER CONVERGENCE KEY K-Means WA Mikeli 
CLUSTER_PATH_KEY K-Means 聚 类 算法 的 路 径 






























2.KCluster 类 




















该 类 通常 被 主 函数 调用 ， 通 过 给 定 的 新 聚 类 中 心 和 距离 函数 来 计算 新 的 聚 类 ， 并 判断 聚 
类 是 否 收敛 。 如 表 13-2 所 示 为 类 KCluster 的 主要 函数 列表 : 








表 13-2 类 KCluster 的 主要 函数 列表 












Kluster(Vector center, int clusterld, DistanceMeasure| 初始 化 K-Means 聚 类 算法 上 法， 使 用 输入 的 点 

measure) 作为 聚 类 的 中 心 来 创建 EA. BH measure 用 
于 比较 点 之 间 的 距离 ，center 为 新 的 聂 类 中 心 ，clusterld 
HNR D 

public static String formatCluster{ Kluster cluster) | 格式 化 输出 














public boolean computeConvergence(DistanceMeasure| EP LIA MALE re ah 
measure, double convergenceDelta) 





3.KMeansDriver 类 


该 类 为 执行 聚 类 操作 的 入 口 函数 ， 包 括 buildClusters、clusterData 、run 及 main 等 函数 ， 
如 表 13-3 所 示 为 类 KMeansDriver 的 主要 函数 列表 : 


对 于 详细 的 类 介绍 ， 请 大 家 自行 查阅 Mahout API 文 档 。 


表 13-3 类 KMeansDriver 的 主要 函数 列表 


main(java lang String[] args) throws java lang Exception 


ak 
(AMY BME rumdob 方法 中 的 参数 顺序 执行 





public static void run(org.apache hadoop.conf.Configuration 
conf, org.apache hadoop.fs.Path input, org.apache-hadoop. 
fs.Path clustersin, org.apache.hadoop.fs.Path output, 
DistanceMeasure measure, double convergenceDelta, 
int maxIterations, boolean runClustering, double 
clusterClassification Threshold, boolean runSequential) throws 
1OException, InterruptedException, ClassNotFoundException 





参数 的 意义 依次 如 下 ; 
conf， 输 入 点 的 目录 路 径 名 
input, HEE TAA UN TERA EA 
clustersln， 初 妨 化 及 计算 聚 类 的 路 径 
output， 输 出 聚 类 点 的 路 径 名 
measure, Pi PAM AA A 
convergenceDelta， 收 敛 值 
maxlterations， 最 大 选 代 次 数 
runClustering， 选 代 完成 之 
clusterClassificationThresho! 
参与 聚 类 
runScquential, JE 4447 sequential 算法 








继续 聚 类 
， 低 于 该 值 的 点 将 不 会 





[1] https: //builds.apache.org/hudson/job/Mahout- Quality/javadoc。 
[2] 在 Mahout Core 0.3 API 中 ， 该 包 一 共 包含 1 个 接口 和 8 个 类 ， 在 0.7 版 本 中 ， 对 其 进行 了 简 


化 。 


13.4 Mahout 中 的 频繁 模式 挖掘 


13.4.1 什么 是 频繁 模式 挖掘 





提 到 关联 规则 人 们 头脑 中 首先 闪 过 的 便 是 “尿布 与 啤酒 的 故事 "。 首 先 我 们 先 来 介绍 一 下 
什么 是 “尿布 与 啤酒 的 故事 "。 该 美国 沃尔玛 超市 的 真实 案例 。 沃 尔 玛 超市 为 了 了 解 顾 
客 在 超市 的 消费 习惯 ， 从 而 对 消费 者 的 购物 数据 进行 分 析 。 他 们 将 消费 者 的 一 次 购物 消费 假 
设 成 为 一 个 购物 篮 ， 通 过 对 购物 篮 的 分 析 他 们 发 现 ， 尿 布 与 啤酒 竟然 经 常 同时 出 现 。 该 现象 
看 似 非常 奇怪 ， 然 而 它 却 揭示 了 美国 人 背后 的 消费 习惯 : 很 多 男子 经 常 要 帮 妻 子 为 婴儿 购买 
尿布 ， 而 同时 ， 他 们 中 的 大 多 数 又 会 顺便 购买 自己 喜爱 的 啤酒 。 
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在 上 述 例子 中 ， 尿 布 与 啤酒 的 经 常 性 一 同 出 现 便 可 以 认为 是 一 组 频繁 模式 。 频 繁 模式 挖 
掘 是 数据 挖掘 研究 中 的 一 个 重要 课题 ， 它 是 关联 规则 、 相 关 性 分 析 、 序 列 模式 、 因 果 关 系 等 
许多 重要 数据 挖掘 任务 的 基础 。 因 此 ， 频 繁 模式 挖掘 有 着 广泛 的 应 用 ， 例 如 购物 复数 据 分 
析 、 交 叉 购物 、DNA 序 列 分 析 、 预 测 分 析 等 。 












































比较 经 典 的 频繁 模式 挖掘 包括 Apriori 算 法 、FPGrowth 算 法 、AGM 算 法 、PrefixSpan 算 法 


13.4.2 ”Mahout 中 的 频繁 模式 挖掘 





Mahout 中 实现 了 FPGrowth 算 法 ，FPGrowth 算 法 英文 全 称 为 “Frequent Pattern Growth 
Algorithm”， 即 “频繁 模式 增长 算法 "。 关 于 算法 具体 内 容 可 参看 Mining frequent patterns 
without candidate generation 论 文 [1] 。 该 算法 包括 如 下 两 个 主要 步 又 : 


1) 构建 一 棵 频繁 模式 树 ， 即 FP 树 ; 


2) 挖掘 FP 树 ， 找 出 频繁 项 。 

















我 们 可 以 通过 Mahout Shell 的 “$MAHOUT_HOME/bin/mahout fpg”* 命 令 来 使 用 FPGrowth 
进行 频繁 模式 挖掘 ， 首 先 我 们 对 该 命令 的 可 选 参数 进行 简要 介绍 ， 如 表 13-4 所 示 。 








表 13-4 Mahout fpg 参数 简介 
参 。 数 w a 
aiti 





--input (-i) 












--output (-0) 





--minSupport (-s) uy 为 3 


该 参数 通过 正则 表达 式 指定 行 中 项 之 间 的 分 隔 符 ， 默 认为 





--splitterPattern (-regex) 





--method (-method) 


--encoding (~c) 


更 多 参数 大 家 可 以 通过 输入 “mahout fgp-h" 来 查看 。 下 面 我 们 来 介绍 具体 的 操作 。 
1. 数 据 获取 


在 执行 算法 之 前 我 们 首先 需要 获取 算法 操作 的 数据 [7] 。 
在 “$MAHOUT_HOME/core/src/test/resources/retail.dat* 位 置 ，Mahout 为 我 们 提供 了 一 组 零售 
商 销售 记录 数据 ， 该 数据 记录 的 项 之 间 通 过 空格 进行 划分 。 该 数据 较 小 ， 共 包含 88162 条 记 
录 ， 用 于 测试 使 用 。 如 果 想 要 使 用 更 大 的 数据 大 家 可 以 从 下 面 的 链接 中 下 载 ; 
http: //fimi.cs.helsinki.fi/data/. 












































2. 执 行 算法 


通过 “-method” 参 数 可 以 指定 算法 运行 的 模式 ， 下 面 我 们 在 不 同 模式 下 运行 处 理 数据 外 
来 比较 算法 的 效率 。 


at 





首先 ， 我 们 在 sequential 模 式 下 执行 算法 ， 如 下 所 示 : 


E 

bin/mahout fpg\ 

-i core/src/test/resources/retail.dat\ 

-o patterns\ 

-k 50\ 

-method sequential\ 

-regex'[\]'\ 

-s 2 
ee | 


可 以 看 到 该 算法 的 执行 时 间 为 : 


sl 
12/06/07 11: 04: 11 INFO driver.MahoutDriver: Program took 
2193567 ms (Minutes: 36.55945) 


ee | 


然后 ， 我 们 在 MapReduce 模 式 下 执行 该 算法 。 在 执行 算法 之 前 我 们 首先 需要 将 数据 复制 
到 HDFS 中 ， 然 后 运行 算法 。 如 下 所 示 : 





==== = === 

bin/mahout fpg\ 

-i/user/hadoop/retail.dat\ 

-o patterns2\ 

-k 50\ 

-method mapreduce\ 

-regex'[\]'\ 

-s 2 
E 


可 以 看 到 该 算法 的 执行 时 间 为 : 


SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSa 
12/06/07 20: 19: 05 INFO driver.MahoutDriver: Program took 
358158 ms (Minutes: 5.9693) 


| 


相 比 于 sequential 模 式 ， 算 法 执行 效率 提高 了 数 倍 ， 这 恰恰 是 分 布 式 的 优势 。 在 数据 量 更 
大 的 情况 下 ， 该 优势 将 更 加 明显 。 





3. 查 看 结果 


FPGrowth 算 法 的 执行 结果 会 以 SequenceFile 的 形式 存储 在 frequentpatterns 目 录 下 ， 我 们 
可 以 通过 下 面 命令 来 查看 运行 的 结果 : 


一 
bin/mahout seqdumper\ 
-s patterns2/frequentpatterns/part-r-00000\ 














上 述 命令 中 ，-s 指 定 的 是 输入 文件 路 径 ，-c 用 于 统计 结果 记录 的 个 数 ， 输 出 结果 如 下 所 











一 
mahout seqdumper-s patterns2/frequentpatterns/part-r-00000-c 
Input Path: patterns2/frequentpatterns/part-r-00000 
Key class: class org.apache.hadoop.io.Text Value Class: class 

org.apache.mahout. 
fpm.pfpgrowth.convertors.string.TopKStringPatterns 
Count: 14246 
12/06/07 19: 38: 44 INFO driver.MahoutDriver: Program took 

2576 ms (Minutes: 

0.04293333333333333) 


[ee | 











该 结果 与 sequential 模 式 下 输出 结果 相同 ， 大 家 可 以 对 其 进行 验证 。 





[1] http: //citeseerx.ist psu.edu/viewdoc/download?doi=10.1.1.40.4436 & rep=rep1 & type=pdf。 
[2] 以 svn 方 式 下 载 的 Mahout 版 本 中 该 示例 数据 。 


13.5 Mahout 中 的 聚 类 和 分 类 


13.5.1 


在 日 常生 活 





P 经 常会 有 如 


什么 是 聚 类 和 分 类 





E 复 的 


事情 发 





起 来 。 例 如 ， 
们 没有 甜食 
行 分 类 。 
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HE GA 

















下 面 将 
水 果 ， 并 告诉 他 红色 
是 不 是 苹果 ， 宝 宝 回 
第 一 个 是 建立 模型 阶 











册 











ee 


全 





糖果 使 人 们 想起 是 甜 味 ， 因 
的 概念 ， 人 们 也 外 
hb 与 此 类 似 的 现象 还 有 很 多 ， 


示 的 例子 来 介绍 到 
是 ， 这 就 是 一 个 简单 的 分 类 过 程 。 在 这 个 过 程 中 


Bo SB 模型 阶段 。 建 立 模型 就 是 告诉 两 岁 的 宝宝 具有 何 种 特 








eC AHH 

















个 是 使 








E， 人 们 会 把 自己 遇 到 的 
上， 人 们 会 把 具有 甜 味 的 食物 归 类 为 
的 食物 进行 归 类 。 洪 意识 里 ， 人 全 
这 些 现象 就 是 


底 什么 是 分 类 。 假 设 在 一 个 两 岁 的 宝宝 
色 圆 的 是 橘子 。 然 后 ， 拿 一 个 又 红 又 大 


事情 和 记忆 中 的 事情 关联 
食 。 即 使 人 


也 将 甜 与 苦 进 














] 能 够 自然 


分 类 。 





前 摆 放 一 些 
苹果 问 宝 宝 
主要 涉及 两 个 阶段 : 
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的 








征 的 水 果 是 苹果 ， 具 有 何 种 4 
果 。 











竺 征 的 水 果 是 橘子 ;使 





模型 就 是 问 宝宝 又 红 又 大 


的 是 不 是 苹 











在 日 常 的 4 
实际 的 
没有 任何 顺序 。 来 到 图 书馆 
找 书 的 过 程 非常 缓慢 。 对 于 





EWH 





名 的 首 字母 进行 排列 ， 那 么 在 知道 


除了 前 面 介绍 的 分 类 外 ， 还 有 4 
例子 来 介绍 聚 类 。 假 设 你 是 一 个 藏书 众多 的 图 


RAF 








的 读者 不 得 不 找 遍 所 有 的 二 


BR 





照 主题 进行 摆 放 ， 图 书 查 询 


类 的 过 程 。 在 刚刚 接触 这 个 了 
也 许 还 会 有 一 些 你 从 未 听 说 过 的 主题 。 
本 查阅 。 当 遇 到 与 之 前 的 书 主题 相似 ， 就 
， 一 裔 聚 类 便 完成 了 ， 


Ate 
SP 





的 书 时 


也 会 变 得 简单 易 行 。 将 众多 和 
C 作 的 时 候 ， 你 不 知道 这 些 - 








BIRR 
BARA HEAL CHRE 
Efe] “SEAR, RABE “MSR De. 
博 况 下 寻找 一 本 书 将 会 变 得 非常 容易 。 


要 完成 这 些 任务 ， 你 首先 要 把 它 人 








中 不 同类 型 的 聚 类 。 
长， 但 图 书馆 


同样 
pb 的 书 是 混乱 的 ， 
的 书 。 这 个 寻 








ff 一 个 











I 果 图 书 按照 书 
如 果 图 书 按 
的 图 书 按照 主题 进行 排列 就 是 一 个 聚 
上 会 有 多 少 种 主题 ， 比 如 哲学 、 文 学 
排 成 一 列 ， 逐 

















回 到 前 面 将 它 1 








众多 的 书籍 


不 够 精细 ， 你 可 以 进行 第 二 遍 聚 类 ， 直 到 自己 满意 为 止 。 


门 放 在 一 起 ， 归 为 一 类 。 当 读 完 所 有 


也 被 分 成 了 一 些 类 。 如 果 你 觉得 第 一 遍 聚 类 的 结果 


这 就 是 聚 类 ， 在 下 面 的 章节 上 





P， 我 们 将 会 详细 地 介绍 Mahoutd 





hb 的 


13.5.2 ”Mahout 中 的 数据 表示 





生活 中 的 数据 会 以 各 种 各 样 的 形式 存储 ，Mahout 中 的 数据 也 会 以 其 固定 的 形式 表示 。 在 


Mahout 中 ， 数 据 将 会 以 向 量 的 形式 进行 存储 。 























多 数 人 对 向 量 这 个 词 并 不 陌生 。 在 不 同 的 领域 ， 向 量具 有 不 同 的 实际 意义 。 在 物理 中 ， 
各 量 用 来 表示 力 的 大 小 和 方向 ， 或 者 一 个 移动 物体 的 速度 。 在 数学 中 ， 一 个 向 量 表示 空间 中 
的 一 个 点 。 虽 然 它 们 代表 的 意义 不 同 ， 但 它们 表示 的 形式 是 相同 的 。 在 二 维 空间 中 ， 所 有 的 
向 量 都 表示 成 诸如 (5，6) 的 形式 ， 每 一 维 中 有 一 个 数字 。 当 计算 这 个 二 维 向 量 时 ， 人 们 常 
称 第 一 个 维度 为 X， 第 二 个 维度 为 Y。 但 是 在 现实 生活 中 ， 一 个 向 量 可 以 是 多 维度 的 。 按 照 
顺序 ， 向 量 的 每 一 个 维度 依次 被 称 为 0 维 、1 维 、2 维 .….… 
















































































如 上 所 述 ， 向 量 是 按照 维度 排列 的 一 系列 有 序 的 值 。 因 此 ， 你 可 能 已 经 想到 在 程序 设计 
语言 中 用 一 维 数组 来 表示 向 量 。 使 用 这 种 方式 表示 向 量 ， 数 组 的 第 斋 刚好 是 向 量 的 第 个 维 
度 的 值 。 这 是 一 种 很 好 的 表示 向 量 的 方法 ， 称 为 密集 向 量 表 示 法 。 





















































在 现实 生活 中 ， 一 个 具有 很 高 维度 的 向 量 经 常会 在 很 多 维度 上 没有 值 。 这 里 的 没有 值 就 
是 程序 设计 当中 空 的 概念 ， 在 向 量 中 它 会 表示 为 0。 在 物理 和 数学 领域 ， 无 论 是 高 维度 向 量 
还 是 包含 很 多 0 的 向 量 都 是 很 少见 的 。 但 在 分 类 算法 中 这 种 情况 很 常见 。 
































使 用 数组 表示 这 种 向 量 效率 太 差 。 数 组 将 会 包含 很 多 个 0， 偶 尔 会 有 一 个 非 0 值 。 舍 弃 众 
多 的 0 值 ， 单 独 表示 非 0 值 是 一 种 很 合理 的 想法 。 当 处 理 数 百 万 维度 带 有 很 多 0 值 的 向 量 时 ， 
ae 
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EXPE F, Mahout's| A T fiat St, RRO ST CE HIME RE AE E EL o X 
可 以 通过 Java 中 的 Map 实 现 。 当 非 0 值 比较 少时 ， 这 种 存储 方式 比 使 用 基于 数组 的 稠密 存储 更 
具 优越 性 。 但 使 用 这 种 方式 ， 程 序 需 要 更 多 的 内 存 空间 。 












































在 Mahout 中 ， 有 关 癌 量 表示 的 类 有 三 个 。 它 们 分 别 是 稠密 向 量 (DenseVector) 、 随 机 








ile Mii Ht (RandomAccessSparseVector) 和 序列 访问 稀 玻 向 量 


(SequentialAccessSparseVector) 。 











稠密 向 量 由 一 个 double 型 的 数组 实现 。 当 向 量具 有 很 少 的 非 0 值 时 ， 这 种 向 量 表示 法 的 效 
率 很 高 。 它 允许 快速 访问 向 量 所 在 任何 维度 的 值 ， 并 且 能 够 快速 按 序 遍历 向 量 的 所 有 维度 。 




















在 随机 访问 向 量 类 中 ， 向 量 的 值 存储 在 类 似 于 HashMap 的 结构 中 ， 键 是 int 型 、 值 是 
double 型 的 。 只 有 维度 上 的 值 非 0， 该 维度 值 才 会 被 存储 。 当 一 个 向 量 的 一 些 维度 值 非 0 时 ， 
随机 访问 向 量 方式 表示 向 量 比 用 稠密 向 量 表示 法 具有 更 高 的 内 存 使 用 效率 。 但 是 访问 维度 
值 的 速度 和 按 序 遍历 所 有 维度 值 的 速度 比较 慢 。 




























































































序列 访问 向 量 使 用 int 和 double 的 并 行 数 组 表示 向 量 。 因 此 ， 使 用 它 按 序 遍历 整个 向 量 的 
各 个 维度 是 很 快 的 。 但 是 随机 插入 和 查询 某 一 维度 的 值 时 速度 要 慢 于 随机 访问 向 量 。 


























这 三 种 表示 向 量 的 方式 使 得 Mahout 的 算法 能 够 按照 数据 特性 、 数 据 访问 方式 实现 。 具 体 
使 用 哪 种 表示 方法 是 按照 算法 的 特性 进行 选择 的 。 如 果 算 法 具有 很 多 对 向 量 值 的 随机 插入 和 
更 新 ， 就 应 该 选择 稠密 向 量 或 随机 访问 向 量 来 表示 向 量 。 因 为 这 两 个 向 量具 有 快速 随机 访问 
的 特性 。 而 对 于 需要 重复 计算 向 量 大 小 的 K-Means 聚 类 算法 ， 选 择 序列 访问 向 量 比 选 择 随机 
访问 向 量 好 。 









































13.5.3 ”将 文本 转化 成 向 


讨论 完 如 何 存储 向 量 ， 
件 的 数量 呈 爆 炸 式 增长 
的 ， 这 些 海量 数据 中 列 含 











着 大 量 的 知识 。 





下 面 我 们 开始 讨论 如 何 将 文本 转 


仅 Google 搜 索引 擎 的 索引 就 有 200 亿 


化 成 向 量 。 在 信息 时 代 ， 文 本 文 
为 Web 文档 。 文 本 数据 是 海量 














公司 或 机 构 可 以 使 








法 去 发 现 这 些 知识 。 学 > 
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间 
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假设 共有 10 个 词 w1 ， 
词 频 表 如 表 13-5 所 示 。 





模型 CVSM, 
了 这 种 技术 。 什 么 是 向 量 空间 模型 ? 下 面 做 一 个 简单 的 介绍 。 





诸如 聚 类 、 分 类 的 机 器 学 习 算 





向 量 表示 文本 是 从 海量 数据 中 发 现 知识 的 第 一 步 。 














Vector space model) 是 最 常 


w2> 


表 13-5 ”空间 向 量 模型 表 





的 相 





似 度 计算 模型 。Mahout 中 对 文 


，w10， 5 篇 文章 d] 、d2 、d3 、d4 和 ds 。 统 计 所 得 的 
































这 个 词 频 表 就 是 空间 向 量 模型 。 对 于 任意 的 两 篇 文档 ， 
选择 计算 两 个 向 量 


则 说 明 两 篇 文档 完全 不 同 
余弦 值 以 外 ， 还 有 














在 Mahout 下 处 理 的 数据 必然 是 海量 数据 。 待 处 理 的 文本 包含 的 所 有 单词 就 是 
词 w， 待 处 理 的 文本 文件 就 是 相应 的 d。 可 以 想象 ， 待 处 理 文本 所 包含 
的 具体 数值 是 某 个 单词 在 特定 文章 中 出 现 的 次 数 ， 
bh 的 1 代表 单词 w] 在 dl 文档 中 出 现 一 次 ， 其 词 


此 ， 文 本 向 量 的 维度 也 是 


称 为 词 频 (term frequency) . Mild, #4 


le 


。 总 之 ， 在 [0，1 





巨大 的 。 示 例 中 

















当 要 计算 它们 的 相似 度 时 ， 可 以 


的 余弦 值 。 如 果 余 弦 值 为 1， 则 说 明 两 篇 文档 完全 相同 ;如 果 余 弦 值 为 0， 
内 余弦 值 越 大 ， 两 篇 文章 相似 度 越 大 。 除 了 计算 
其 他 的 方法 测量 两 篇 文章 的 相似 度 ， 这 里 不 作 介绍 。 


例子 中 的 音 
巨大 的 ， 因 





的 单词 量 是 











在 一 些 简单 的 处 理 方法 中 
在 两 篇 长 度 相 差 很 大 的 文本 中 








z| 





以 只 通过 词 频 来 计算 文本 间 的 相似 度 ， 不 过 当 某 个 关键 词 





出现 的 频率 相近 时 ， 会 降低 结果 的 准确 性 。 因 此 通常 会 把 词 频 








数据 正规 化 ， 以 防止 词 频数 据 偏向 于 关键 词 较 多 、 即 较 长 的 文本 。 如 某 个 词 在 文档 d1 中 出 现 





了 100 次 ， 在 dz 中 出 现 了 100 次 ， 仅 从 词 频 看 来 ， 这 个 词 在 这 两 个 文档 中 

















要 性 相同 ， 然 


而 ， 再 考虑 另 一 个 因素 ， 就 是 dl 的 关键 词 总 数 是 1000， 而 d2 的 关键 词 总 数 是 100000， 所 以 








从 总 体 上 看 ， 这 个 词 在 dl 和 ds 中 


文档 的 关键 词 总 数 。 












































的 重要 性 是 不 同 的 。 正 规 化 处 理 的 方法 是 用 词 频 除 以 所 有 








当 仅 使 用 词 频 来 区 分 文档 时 ， 还 会 遇 到 这 样 一 个 问题 。 众 所 周知 ， 一 篇 文章 会 包含 很 多 
诸如 一 、 二 、 你 、 我 、 他 等 的 单词 ， 并 且 这 些 词语 会 多 次 出 现 。 很 明显 ， 无 论 使 用 何 种 距离 
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来 测算 两 篇 文章 的 相似 度 ， 这 些 经 常 出 现 的 词汇 都 会 对 结果 起 到 很 大 的 负面 影响 。 但 这 些 词 
语 并 不 能 区 分 两 份 文档 ， 相 似 性 判断 也 因此 变 得 不 再 准确 。 把 文档 按照 相似 性 进行 合理 的 聚 
类 就 更 不 可 能 了 。 为 了 解决 这 个 问题 ， 人 们 使 用 了 TF-IDF (Term Frequency-Inverse 

Document Frequency ) 技术 。 











TF-IDF 是 一 种 统计 方法 ， 


中 出 现 的 频率 成 反 
率 TF 高 ， 并 且 在 其 他 文章 中 


T 
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的 频率 ，IDF 代 表 反 文档 频 
含 词语 w 的 文档 越 少 ，IDF; 

















以 评估 一 个 字 词 对 于 一 个 文件 集 或 一 个 语料库 中 一 份 文件 的 



































重要 程度 。 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 它 在 语料库 
CE 下 降 。TF-IDF 的 主要 思想 是 ， 如 果 某 个 词 或 短语 在 一 篇 文章 中 出 现 的 频 
hb 很 少 出 现 ， 则 认为 此 词 或 短语 具有 很 好 的 类 别 区 分 能 力 ， 适 合 
来 分 类 。TF-IDF 实 际 上 是 TF*IDE TF 代表 词 频 (Term Frequency) ， 表 示 词 条 在 文档 中 出 现 






































率 (Inverse Document Frequency ) ，IDF 的 主要 思想 是 ， 如 果 包 
咸 大 ， 则 说 明 词 语 w 具 有 很 好 的 类 别 区 分 能 力 。 





13.5.4 Mahout 中 的 聚 类 、 分 类 算法 


Mahout 目 前 已 经 实现 了 Canopy 聚 类 算法 、K-Means 聚 类 算法 、Fuzzy K-Means 聚 类 算 
法 、Dirichlet 过 程 聚 类 算法 等 众多 聚 类 算法 。 除 此 之 外 ，Mahout 还 实现 了 贝 叶 斯 (Bayes) 分 
类 算法 。 这 里 主要 介绍 简单 且 应 用 广泛 的 K-Means 聚 类 算法 和 贝 叶 斯 分 类 算法 。 














K-Means 聚 类 算法 能 轻松 地 对 几乎 所 有 的 问题 进行 建 模 。K-Means 聚 类 算法 容易 理解 ， 
并 且 能 在 并 行 计 算 机 上 很 好 地 运行 。 学 习 K-Means 聚 类 算法 ， 能 更 容易 理解 聚 类 算法 的 缺 
点 ， 以 及 其 他 算法 对 于 特定 数据 的 高 效 性 。 


























K-Means 聚 类 算法 的 K 是 聚 类 的 数目 ， 在 算法 中 会 强制 要 求 用 户 输入 。 对 于 将 新 闻 聚 类 
成 诸如 政治 、 经 济 、 文 化 等 大 类 ， 可 以 选择 10 到 20 之 间 的 数字 作为 K。 因 为 这 种 顶级 的 类 别 
数量 是 很 小 的 。 如 果 要 对 这 些 新 闻 详 细 分 类 ， 选 择 50 到 100 之 间 的 数字 也 是 没有 问题 的 。 假 
设 数据 库 中 有 一 百 万 条 新 闻 ， 如 果 想 把 这 一 百 万 条 新 闻 按照 新 闻 谈论 的 内 容 进 行 聚 类 ， 则 这 
个 聚 类 数目 远 远 大 于 之 前 的 聚 类 数目 。 因 为 每 个 聚 类 中 的 新 闻 数 量 不 会 太 大 。 这 就 要 求 选择 
一 个 诸如 10 000 的 聚 类 数值 。 聚 类 数值 K 的 取 值 范围 不 定 ， 它 既 可 以 小 至 几 个 ， 也 可 以 大 至 
几 万 个 。 这 就 对 算法 的 伸缩 性 提出 了 很 高 的 要 求 ， 而 Mahout 下 实现 的 K-Means 聚 类 算法 就 具 
有 很 好 的 伸缩 性 。 












































K-Means 聚 类 算法 主要 可 以 分 为 三 步 。 第 一 步 是 为 待 聚 类 的 点 寻找 聚 类 中 心 ; 第 二 步 是 
计算 每 个 点 到 聚 类 中 心 的 距离 ， 将 每 个 点 聚 类 到 离 该 点 最 近 的 聚 类 中 去 ， 第 三 步 是 计算 聚 类 
中 所 有 点 的 坐标 平均 值 ， 并 将 这 个 平均 值 作为 新 的 聚 类 中 心 点 。 反 复 执 行 第 二 步 ， 直 到 聚 类 
移动 ， 或 者 聚 类 次 数 达到 要 求 为 止 。 



































中 心 不 再 进行 大 范围 





假设 有 n 个 点 ， 需 要 将 它们 聚 类 成 K 个 组 。K-Means 算 法 会 以 K 个 随机 的 中 心 点 开始 。 算 
法 反复 执行 上 文中 提 到 的 第 二 步 和 第 三 步 ， 直 至 终止 条 件 得 到 满足 。 接 下 来 以 9 个 点 为 例 ， 
配 以 相应 图 示 介 绍 K-Means 算 法 。 











在 聚 类 前 ， 首 先 在 二 维 平 面 中 随机 选择 9 个 点 ， 坐 标 分 别 为 (7，8) 、 (12, 1) 、 








(13, 6) < (13, 13). 《13，19) » (14, 5) ~ (17; 16) ~ (19, 20) 、 (20, 


7) 。 
1. 第 一 次 聚 类 
1) 系统 首先 选取 前 3 个 点 (7，8) 、 12,10. 3, 6) 作为 聚 类 中 心 ， 然 后 计算 每 
个 点 到 聚 类 中 心 的 距离 ， 该 点 距离 哪个 聚 类 中 心 的 距离 最 小 就 归属 于 哪个 聚 类 中 心 。 经 过 计 


算 ， 点 (7，8) 03, 19) 为 1 个 聚 类 ， 点 02, 1) 为 1 个 聚 类 ， 点 (13, 6) 、 (13， 
13) 、 (14，5) 、 (17，16) 、 (19, 20) 、 (20, D 为 1 个 聚 类 ， 如 图 13-2 所 示 。 
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图 13-2 未 聚 类 的 九 个 点 








2) 更 新 聚 类 的 聚 类 中 心 ， 新 的 聚 类 中 心 的 值 为 聚 类 中 所 有 成 员 的 平均 值 。 聚 类 (7， 
8). (13, 19) 的 新 聚 类 中 心 为 (10.0，13.5) , RX A2, 1) 的 新 聚 类 中 心 仍 为 〈12.0， 
1.0) ， 聚 类 (13，6) 、 (13，13) 、(14, 5) 、 (17，16) 、 (19, 200. Q20, 7) 的 
新 聚 类 中 心 为 《16.0，11.2) ， 如 图 13-3 所 示 。 
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A 13-3 一 次 聚 类 后 的 结果 


2. 第 二 次 聚 类 








1) 根据 前 面 生 成 的 聚 类 中 心 (10.0, 13.5). (12.0, 1.0). (16.0, 11.2) 重新 计算 
每 个 点 和 聚 类 中 心 点 之 间 的 距离 ， 根 据 计算 出 的 距离 对 该 点 进行 聚 类 。 结 果 点 (7，8) 、 
(13，13) 、 (13，19) 为 1 个 聚 类 ， 点 (12，1) 、 C13, 6), (14, 5) 为 1 个 聚 类 ， 点 
(17，16) 、 (19, 20) 、 (20, 7) WIR. 








2) BPA, RECT, 8). A3, 13). C13, 19) 的 新 聚 类 中 心 为 
(11.0, 13.3) , RÆ 12, 1). 13, 6) 、 (14, 5) 的 新 聚 类 中 心 仍 为 (13.0，4.0) , 
RE 7, 16) 、 (19, 20) 、 (20, D 的 新 聚 类 中 心 为 《18.7，14.3) ， 如 图 13-4 所 示 。 














3. 第 三 次 聚 类 


根据 上 一 步 来 看 ， 聚 类 结果 没有 发 生变 化 ， 满 足 收 敛 条 件 ，K-Means 聚 类 结束 ， 如 图 13- 





5 所 示 。 


介绍 完 K-Means 聚 类 算法 ， 下 面 开 始 介绍 贝 叶 斯 (Bayes) 分 类 算法 。 贝 叶 斯 (Bayes) 














分 类 算法 是 一 种 基于 统计 的 分 类 方法 ， 
斯 (Bayes) 分 类 算法 是 基于 贝 叶 斯 定理 





来 预测 某 个 样本 属于 某 个 分 类 的 概率 有 多 大 。 贝 叶 
的 分 类 算法 。 





贝 叶 斯 分 类 算法 有 很 多 变种 。 在 这 里 主要 介绍 朴素 贝 叶 斯 分 类 算法 。 何 谓 朴素 ? 所 谓 朴 
素 就 是 假设 各 属性 之 间 是 相互 独立 的 。 经 过 研究 发 现 ， 大 多 数 情况 下 ， 朴 素 贝 叶 斯 分 类 算法 
(Naive Bayes Classifier) 在 性 能 上 和 决策 树 (Decision Tree) 、 神 经 网 络 (Netural 
Network) 相当 。 当 针对 大 数据 集 的 应 用 时 ， 贝 叶 斯 分 类 算法 具有 方法 简单 、 高 准确 率 和 高 
速度 的 优点 。 但 事实 上 ， 贝 叶 斯 分 类 算法 也 有 其 缺点 。 缺 点 就 是 贝 叶 斯 定理 假设 一 个 属性 值 

































































对 给 定 类 的 影响 独立 于 其 他 属性 的 值 ， 而 此 假设 在 实际 情况 中 经 常 是 不 成 立 的 ， 因 此 其 分 类 


准确 率 可 能 会 下 降 。 








图 13-4 二 次 聚 类 后 结果 
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图 13-5 第 三 次 聚 类 的 结果 











朴素 贝 叶 斯 分 类 算法 是 一 种 监督 学 习 算法 ， 使 用 朴素 贝 叶 斯 分 类 算法 对 文本 进行 分 类 ， 
主要 有 两 种 模型 ， 即 多 项 式 模型 (multinomial model) 和 伯 努 利 模型 (Bernoulli model) 。 
Mahout 实 现 的 贝 叶 斯 分 类 算法 使 用 的 是 多 项 式 模型 。 对 算法 具体 内 容 感 兴趣 的 读者 可 以 阅读 
http: //people.csail.mit.edu/jrennie/papers/iicm103-nb.pdf 上 的 论文 [1] 。 本 书 将 以 一 个 实际 的 例 
子 来 简略 介绍 使 用 多 项 式 模型 的 朴素 贝 叶 斯 分 类 (Naive Bayes Classifier) 算法 。 















































给 定 一 组 分 类 号 的 文本 训练 数据 ， 如 表 13-6 所 示 。 


表 13-6 文本 训练 数据 表 
























文档 编号 x ë KERM CEE GR FPH) 
1 | 中 国 ， 北 京 ， 中国 | 是 
2 | 中 国 ， 中国 ， 上 海 | 是 
3 | 中 国 ， 澳 门 | 是 
4 东京 ， 日 本 ， 中 国 a 











给 定 一 个 新 的 文档 样本 “中 国 、 中 国 、 中 国 、 东 京 、 日 本 ， 对 该 样本 进行 分 类 。 该 文本 
属性 向 量 可 以 表示 为 d= CHE, PE 














， 中 国 ， 东 京 ， 日 本 ) ， 类 别 集合 Y={ 是 ， 否 }。 类 
别 “ 是 ”下 共有 8 个 单词 ,，“ 否 ”类别 下 面 共 有 3 个 单词 。 训 练 样本 单词 总 数 为 11。 因 此 P (是 ) 
=8/11, P (和 否 ) =3/11。 


类 条 件 概率 计算 如 下 : 


P (中 国 | 是 ) = (5+1) / (8+6) =6/14=3/7; 





P (日 本 | 是 ) =P (东京 | 是 ) = (0+1) / (8+6) =1/14; 











P CHAJE) = (1+1) / (3+6) =2/9; 





P CAAA) =P (REJE) = (1+1) / (3+6) =2/9。 





上 面 4 条 语句 分 母 中 的 8， 是 指 “ 是 ”类 别 下 训练 样本 的 单词 总 数 ，6 是 指 训 练 样本 有 
国 ， 北 京 ， 上 海 ， 澳 门 ， 东 京 ， 日 本 ， 共 6 个 单词 ，3 是 指 “ 否 ”类别 下 共有 3 个 单词 。 有 了 以 
上 的 类 条 件 概率 ， 开 始 计算 后 验 概率 : 


i 











P (是 |d) = (3/7) 3x1/14*1/14*8/11=108/184877=0.00058417; 
P (Eld) = (2/9) 3x2/9x2/9x3/11=32/21651350.00014780. 


因此 ， 这 个 文档 属于 类 别 
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。 这 就 是 Mahout 实 现 的 贝 叶 斯 (Bayes) 分 类 算法 的 主要 
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[1] Trackling the Poor Assumptions of Naive Bayes Text classifiers. 








13.5.5 ”算法 应 用 实 侦 
































下 面 我 们 将 对 如 何 使 用 Mahout 进 行 聚 类 和 分 类 进行 具体 介绍 ， 其 中 聚 类 算法 以 K-Means 
为 例 ， 分 类 算法 以 贝 叶 斯 (Bayes 为 例 。 








_K-Means3¢ 8 








在 Mahout 中 运行 K-Means 聚 类 算法 非常 简单 。 对 于 不 同 的 数据 主要 有 以 下 三 个 步骤。 











使 用 seqdirectory 命令 将 待 处 理 的 文件 转化 成 序列 文件 。 











使 用 seq2sparse 命 令 将 序列 文件 转化 成 向 量 文件 。 




















使 用 kmeans 命 令 对 数据 运行 K-Means 聚 类 算法 。 





将 文本 文件 转化 成 向 量 需 要 两 个 重要 的 工具 。 一 个 是 SequenceFilesFromDirectory 类 ， 它 
能 将 一 个 目录 结构 下 的 文本 文件 转化 成 序列 文件 ， 这 种 序列 文件 为 一 种 中 间 文 本 表示 形式 。 


























另 一 个 是 SparseVectorsFrom SequenceFiles 类 ， 它 使 用 词 频 (TF) 或 TF-IDF (TF-IDF 
weighting with n-gram generation) 将 序列 文件 转化 成 向 量 文件 。 序 列 文件 以 文件 编号 为 键 、 
文件 内 容 为 值 。 下 面 讨论 如 何 将 文本 转换 成 向 量 。 























使 用 路 透 社 14578 新 闻 集 作为 示例 数据 。 这 组 数据 被 广泛 应 用 于 机 器 学 习 的 研究 中 ， 它 
起 初 是 由 卡 内 基 集 团 有 限 公司 和 路 透 社 共同 搜集 整理 的 ， 目 的 是 发 展 文本 分 类 系统 。 路 透 社 
14578 新 闻 集 分 布 于 22 个 文档 中 ， 除 最 后 的 reut2-0.14.sgm 包 含 578 份 文件 外 ， 其 余 的 每 个 文件 
包含 1 000 份 文件 。 


















































路 透 社 14578 新 闻 集 中 的 所 有 文件 都 为 标准 通用 标记 语言 GML (Standard Generalized 
Markup Language) 格式 ， 这 种 格式 的 文件 与 XML 文 件 格式 相似 。 可 以 为 SGML 文 件 创建 一 














个 分 析 器 (parser) ， 并 将 文件 编号 CdocumentID) 和 文件 内 容 (document text) 写 到 序列 
文件 (SequenceFiles) 中 去 。 然 后 用 前 文 提 到 的 向 量化 工具 将 序列 文件 转化 成 向 量 。 但 是 ， 









































更 快捷 的 方式 是 使 用 Lucene BenchmarkJAR 文 件 提供 的 路 透 社 分 析 器 (the Reuters 
Parser) 。Lucene BenchmarkJAR 是 捆绑 在 Mahout 上 的 ， 剩 下 的 工作 只 是 到 Mahout 目 录 下 的 





examples 文 件 夹 运行 org.apache.lucene.benchmarknutils.ExtractReuters 类 。 在 这 之 前 ， 需 要 从 
http: /www.daviddlewis.com/resources/testcollections/reuters14578/reuters 14578.tar.gz F RKE 
社 新 闻 集 ， 并 将 它 解 压 到 Examples/Reuters 文 件 夹 下 。 相 关 命 令 如 下 所 示 : 











mvn-e-q exec: java 


Cl 


Dexec.mainClass="org.apache.lucene.benchmark.utils.ExtractReuters 
-Dexec.args="reuters/reuters-extracted/" 


二 一 





























使 用 解压 得 到 的 文件 夹 运行 SequenceFileFromDirectory 类。 使 用 下 面 的 脚本 命令 
(Launch script) 可 以 实现 该 功能 








| 
bin/mahout seqdirectory-c UTF-8 
-i examples/reuters-extracted/ 
-o reuters-seqfiles 


TT | 

















这 条 命令 的 作用 是 将 路 透 社 文章 转化 成 序列 文件 格式 ， 如 表 13-7 所 示 。 





表 13-7 seqdirectory 命令 参数 表 





--chunkSize (-chunk) chunkSize 





RIM 64MB 














--charset (-c) charset 多 使 用 UTF-8 
--input (-i) input 

--output (-o} output | 

--help (-h) rT 帮 | 息 





现在 剩 下 的 工作 是 将 序列 文件 转化 成 向 量 文件 。 运 行 SparseVectorsFrom SequenceFiles 类 
即 可 实现 该 功能 。 命 令 如 下 : 





[ee | 


bin/mahout seq2sparse-i reuters-seqfiles/-o reuters-vectors-w 
一 























注意 ， 在 seq2sparse 命 令 中 ， 参 数 -w 用 来 表示 是 否 覆 盖 输 出 文件 来。Mahout 用 来 处 理 海 


量 的 数据 ， 任 何 一 个 算法 的 输出 都 会 花费 很 多 时 间 。 有 了 参数 -w Mahout 就 可 以 防止 新 产 4 

















H 








的 数据 对 未 完全 输出 的 数据 进行 破坏 。 除 此 之 外 ，seq2sparse 命 令 还 有 以 下 参数 ， 如 表 13-8 所 


不 。 


表 13-8 seq2sparse 命令 参数 表 





fii 述 





-w (boolean) 





如 果 未 设置 该 参数 ， 当 文件 夹 不 存在 时 ， 则 剑 建 该 文 


该 参数 决定 的 内 容 
， 则 工程 会 抽出 异常 


如 果 文 件 

































-a (String) 所 使 用 的 分 析 器 UA org.apache.lucene.analysis. standard. Standard Analyzer 
分 块 大 小 以 MB 为 。 在 向 量化 : GB 或 TB 级 的 数据 不 能 AW TE fA 
-chunk(int) 此 要 将 数据 分 成 指 大 小 ， 分 阶段 进 和 to 建议 使 用 Hadoop 子 节点 中 Java 堆 大 小 的 
80%。 这 里 默认 值 为 100MB 
-wt (String) ERRIME. tf TF, tfidf 为 TF-IDF。 默 认 值 为 使 用 TF-IDF 
= Gnid MEME A NY A, AIR 4 a Ta PA, BZ, Ae a a. 


默认 值 为 2 





-minDP (int) 


最 小 的 文件 频率 (document frequency), StU {fit 1 

















-x (int) 

-ng Cint) 

-ml (float) 最 小 对 数 似 然 函数 。 默 认 值 为 10。 此 参数 不 是 必须 的 
-nr (int) Reduce FES AMM. MIG H 1. REMARS 








-seq (bool) 








是 G 4 结果 LA ScquentialAccess Vectors 形 
SequentialAccess Vectors 形式 输出 


式 输 出 和 如果 设 置 ， 则 以 














Mahout 的 seq2sparse 命 令 的 功能 是 从 序列 文件 中 读 取 数 据 ， 使 用 上 面 提 到 的 默认 参数 ， 
按照 基于 向 量化 (vectorizer〉 的 字典 生成 向 量 文件 。 大 家 可 以 使 用 以 下 命令 检查 生成 文件 


夹 ; 









































TT | 
ls reuters-vectors/ 


OOS 


执行 上 述 命令 后 ， 结 果 如 下 所 示 : 


= | 
dictionary.file-0 


tfidf/ 


tokenized-documents/ 
vectors/ 
wordcount/ 


| | 

















输出 文件 夹 包 含 一 个 目录 文件 和 四 个 文件 夹 。 目 录 文件 保存 着 术语 〈term ) 和 整数 编号 
之 间 的 映射 。 当 读 取 算 法 的 输出 时 ， 这 个 文件 是 非常 有 用 的 ， 因 此 ， 需 要 保留 它 。 其 他 四 个 
文件 夹 是 向 量化 过 程 中 生成 的 文件 夹 。 向 量化 过 程 主要 有 以 下 几 步 : 
























































第 一 步 ， 标 记 文 本 文档 。 有 具体 过 程 是 使 用 Lucene StandardAnalyzer 将 文本 文档 分 成 个 体 
化 的 单词 ， 将 结果 存储 在 tokenized-documents 文 件 夹 下 。 











第 二 步 ， 对 tonkenized 文 档 进 行 迭 代 生 成 一 个 重要 单词 的 集合 。 这 个 过 程 可 能 会 使 用 单词 
统计 、n-gram 生 成 ， 这 里 使 用 的 是 unigrams 生 成 。 



























































第 三 步 ， 使 用 TF 将 标记 的 文档 转化 成 向 量 ， 从 而 创建 TF 向 量 。 在 默认 情况 下 ， 向 量化 是 
使 用 TF-IDF， 因 此 需要 分 两 步 来 进行 ， 一 是 文档 频率 Cdocument-frequency ) 的 统计 工作 ; 


















































二 是 创建 TF-IDF 向 量 。TF-IDF 向 量 在 tfidf/vectors 文 件 夹 下 。 对 于 大 多 数 的 应 用 来 说 ， 需 要 的 
仅仅 是 目录 文件 和 tfidf/vectors 文 件 夹 。 
































使 用 kmeans 命 令 可 以 对 数据 运行 K-Means 聚 类 算法 。 命 令 如 下 : 


bin/mahout kmeans 

-i./examples/bin/work/reuters-out-seqdir- 
sparse/tfidf/vectors/ 

-c./examples/bin/work/clusters 

-o./examples/bin/work/reuters-kmeans 

>k 20-w 


一 


表 13-9 列 出 了 K-Means 命 令 参 数 的 具体 意义 。 


Wikimapia 数 据 ， 但 


表 13-9 K-Means 聚 类 算法 列表 


























参数 mo t 
--k (-k) k K-Means 算法 中 的 K 值 ， 如 果 i 
--input (-i) input 输入 文件 的 位 置 ， 输 入 文件 必须 是 序列 文件 
--output (-0} outpu 输出 文件 的 
--distance (-m) distance (FEED og AA D, ULL FPL PB 
--convergence (-d) convergence We MPI (EEK UE 0.5 











一 max (-x) max 





--numReduce (-r) numReduce 





--vectorClass (-v) vectorClass 





. BRIM % RandomAccessSparseVector.class 











-overwrite (-w) 


2. 贝 叶 斯 分 类 


， 如 果 设 置 ， 则 会 覆盖 之 前 的 输出 结果 


在 已 经 安装 好 Hadoop 和 Mahout 的 前 提 下 ， 运 行 Bayes 分 类 算法 也 比较 简单 。 这 里 简要 介 
绍 Mahout 的 示例 程序 20NewsGroup 的 分 类 。 实 际 上 ， 除 了 20NewsGroup 示 例 之 外 ， 还 有 




















选择 数据 量 较 小 且 非 常 经 典 的 20NewsGroup 示 例 的 分 类 。 


从 那 以 后 ，20 新 闻 组 数据 集合 在 机 器 学 习 领 域 越 来 越 多 地 被 用 作 实 


于 其 数据 量 达到 了 将 近 7GB， 对 大 多 数 初学 者 而 言 并 不 合适 。 这 里 我 们 





什么 是 20NewsGroup? 20 新 闻 组 包含 20 000 个 新 闻 组 文档 ， 这 些 文档 可 以 被 分 类 成 20 个 
新 闻 组 。20 新 闻 组 最 初 来 源 于 Ken Lang 的 论文 《Newsweeder: learning to filter netnews》。 
































验 数 据 。 在 文本 聚 类 和 分 





方面 的 研究 中 使 用 尤为 突出 。20 新 闻 组 按照 20 个 不 同 的 类 型 进行 组 织 ， 不 同 的 类 对 应 不 同 
的 主题 。 本 书 用 到 的 20 新 闻 组 数据 可 以 从 http: //people.csail.mit.edu/jrennie/20Newsgroups/ 下 
载 。 在 下 载 页 面 中 ， 一 共有 三 种 版 本 的 20 新 闻 组 数据 ， 分 别 是 20news-19997.tar.gz、20news- 


bydate.targz 和 20news-18828.targz。 






































20news-19997. targz 是 最 原始 的 版 本 数据 ; 20news-by date.tar.gz 是 按照 日 期 进行 排序 的 ， 
































H 


题 的 标题 。 这 三 种 20 新 闻 组 数据 都 是 以 targz 形 式 存在 的 。 读 者 使 








中 的 60% 用 来 进行 训练 Bayes 分 类 算法 ，40% 用 来 测试 Bayes 分 类 算法 ， 不 包含 重复 新 闻 和 
示 识 新 闻 组 的 标题 ，20news-18828.tar.gz 不 包含 重复 的 新 闻 ， 但 是 包含 带 有 新 闻 来 源 和 新 闻 主 


























z| 





得 到 相应 的 数据 。 具 体 选 择 哪 种 数据 对 结果 影响 不 大 ， 这 里 我 人 





tar 命 令 对 它们 进行 解压 即 
选择 20news- 


by date.tar.gzo 


介绍 完 20NewsGroup 后 ， 下 面 开始 介绍 如 何 运行 Mahout 自 带 的 Naive Bayes Classifier 
法 示例 。 














数据 下 载 完成 后 并 不 可 以 直接 使 用 ， 可 以 看 到 ， 数 据 在 目录 中 均 是 以 文件 夹 进行 区 分 ， 
即 数据 已 经 被 分 好 类 别 。 因 此 我 们 首先 需要 获取 所 需 格式 的 数据 。 该 操作 可 以 通过 如 下 两 个 
命令 完成 : 


























获取 训练 集 : 





| 
mahout 
org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups\ 
-p$DATA_HOME/20news-bydate-train\ 
-o$DATA_HOME/bayes-train-input\ 
-a org.apache.mahout.vectorizer.DefaultAnalyzer\ 
-c UTF-8 


5 


获取 测试 集 : 


an 





EM 
mahout 
org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups\ 
-p$DATA_HOME/20news-bydate-test\ 
-o$DATA_HOME/bayes-test-input\ 
-a org.apache.mahout.vectorizer.DefaultAnalyzer\ 
-c UTF-8 
4 

















在 数据 获取 完成 之 后 ， 通 过 “hadoop fs-put* 命 令 将 数据 上 传 到 HDFS， 然 后 使 用 下 列 命令 
训练 Bay es 分 类 器 : 


一 
mahout trainclassifier\ 
-i/user/hadoop/20news/bayes-train-input\ 
-o/user/hadoop/20news/newsmodel\ 

-type cbayes\ 
-ng 2\ 
-source hdfs 


Peer 

















该 命令 将 会 在 Hadoop 上 运行 四 个 MapReduce 作 业 。 在 命令 执行 的 过 程 中 ， 可 以 打开 浏览 
器 ， 在 http: //localhost: 50030/jobtrackerjsp 上 监视 这 些 作 业 的 运行 状态 。 








运行 下 面 的 命令 测试 Bayes 分 类 器 : 


oo 
mahout testclassifier\ 
-m/user/hadoop/20news/newsmodel\ 
-d/user/hadoop/20news/bayes-test-input\ 
-type cbayes\ 
-ng 2\ 
-source hdfs\ 
-method mapreduce 


二 一 


关于 trainclassifier 和 testclassifier 命 令 参数 ， 这 里 不 再 详细 介绍 ， 大 家 可 以 通 
过 “mahout[command]-h"* 命 令 来 查看 。 


这 就 是 Mahout 自 带 的 Bayes 分 类 算法 的 示例 程序 。 如 果 大 家 想 要 深入 了 解 Mahout 的 分 类 
算法 ， 可 以 自行 阅读 Mahout Core API 0.7 来 了 解 已 经 实现 的 功能 。 


13.6 ”MahoutIy 上 


13.6.1 


we 
忆 ， 


同样 的 事情 


一 个 新 的 事物 与 人 
国人 喜欢 吃 中 
外 ， 如 果 你 


间 会 有 一 些 ; 


影 《 指 环 王 
1), HAR 




















推荐 引擎 简 


每 天 人 们 都 会 产生 各 种 各 样 上 
在 人 们 毫 无 察觉 的 情况 下 ， 这 
柯 影响 。 歌 





也 可 能 对 你 没有 任 


: 建立 








AREER 





ibt 











每 个 人 都 有 着 不 同 


国 








的 朋友 喜欢 周 
共同 的 喜好 。 








的 喜好 ， 
也 之 前 喜欢 的 事物 相似 ， 那 么 他 
饺子 ， 那 么 他 很 有 可 能 会 3 


tt 


个 推荐 引擎 

















一 个 了 





的 想法 : 喜欢 一 个 产品 、 不 喜欢 一 件 事 、 不 关心 某 个 东西 。 


事情 在 悄然 发 生 。 











E 在 播放 的 流行 歌曲 可 会 引起 你 的 注 















































国 


引起 你 的 注意 可 能 是 
门 的 喜好 。 


遵循 着 类 


民有 可 外 














国平 能 





在 日 常生 活 中 ， 预 测 
III》 的 问题 ， 








AMIN 











大 多 数 人 只 能 靠 猜 测 。 











以 断定 ，B 是 不 会 喜欢 《 


以 推测 B 喜 欢 《 指 环 了 





推荐 引擎 就 是 对 人 全 








BIREN) Wo 


的 喜好 做 出 预测 的 一 种 技术 。 它 会 依据 已 经 获得 的 各 种 信息 ， 对 





f 


的 包子 。 因 为 它 信 


因为 它 很 好 听 或 者 它 很 让 人 厌烦 。 


以 的 规律 。 对 于 一 个 人 来 说 ， 如 果 
也 会 喜欢 这 个 新 事物 。 如 果 一 个 外 
都 是 带 馅 的 面食 。 此 




















RAAT A 











PSE AT A THM, AAT BAAS A). WKE H 


他 们 可 能 会 喜欢 的 产品 。 


之 间 的 关系 为 顾客 推荐 他 们 可 
《 云 计算 》 这 本 书 时 ， 在 页 而 
可 能 会 顺便 买 一 本 相关 的 书 。 推 荐 引擎 技术 

















卓越 网 使 





了 推荐 引 


学 








技术 ， 在 购买 一 本 书 的 同时 ， 网 站 会 利 
能 会 感 兴趣 的 书籍 或 音像 制品 。 例 如 ， 当 某 一 名 顾客 想 要 购买 


的 。 假 设 有 两 个 人 A 和 B。 对 于 B 是 否 喜欢 电 
但 如 果 A 知 道 B 喜 欢 《指环 王 I》 和 《指环 了 
EIIT》。 如 果 B 对 指环 王 系列 电影 一 点 也 不 了 解 ，A 基 本 可 





会 喜欢 周国平 的 散文 。 因 为 朋友 之 












































hp， 人们 都 经 历 过 网 站 向 客户 推荐 产 


是 基于 客户 浏览 信息 的 推荐 。 网 站 试 着 推断 客户 的 喜好 ， 以 此 来 向 客户 推荐 




















顾客 的 购买 习惯 和 书籍 








的 下 方 会 出 现 购买 此 商品 的 顾客 同时 购买 的 书籍 。 这 样 顾客 就 











仅 可 以 帮助 顾客 更 容易 地 发 现 自己 想 要 的 商 
































品 ， 而 且 可 以 帮助 商家 售卖 更 多 的 商品 。 社 交 网 站 人 人 网 利用 推荐 引擎 技术 ， 向 用 户 推荐 
些 可 能 是 用 户 朋 友 的 人 。 对 于 最 有 可 能 是 朋友 的 人 ， 人 人 网 会 自动 把 这 些 最 可 能 是 该 用 户 朋 
友 的 人 放 在 最 前 方 ， 以 供用 户 选择 。 推 荐 引擎 技术 已 经 悄然 地 影响 着 人 们 的 生活 ， 只 是 人 们 
可 能 并 没有 注意 它 。 

























































































13.6.2 ”使 用 Taste 构 建 





供 推 


和 文 


协同 
相似 


Taste 是 Apache Mahout 提 





个 简单 的 推荐 引擎 





供 的 一 个 协同 过 滤 算 法 的 高 效 实现 ， 它 是 一 个 Java 实 现 的 



































六 
展 的 、 高 效 的 推荐 引擎 。Taste 既 实现 了 最 基本 的 基于 用 户 的 和 基于 内 容 的 推荐 算法 ， 同 时 也 
提供 了 扩展 接口 ， 使 用 户 可 以 方便 地 定义 和 实现 自己 的 推荐 算法 。 同 时 ，Taste 不 仅仅 适用 于 
Java 应 用 程序 ， 它 还 可 以 作为 内 部 服务 器 的 一 个 组 件 以 HTTP 和 Web Service 的 形式 向 外 界 提 















































荐 的 逻辑 。Taste 的 设计 使 它 能 满足 企业 对 推荐 引擎 在 性 能 、 灵 活性 和 可 扩展 性 等 方面 的 





Taste 主 要 包括 以 下 5 个 组 件 ， 具 体 如 图 13-6 所 示 。 














DataModel: DataModel 是 用 户 喜 好 信息 的 抽象 接口 ， 它 的 具体 实现 支持 从 任意 类 型 的 数 









































U 











户 喜好 信息 。Taste 默 认 提供 JDBCDataModel 和 FileDataModel， 分 别 支持 从 数据 库 
件 中 读 取 用 户 的 喜好 信息 。 




















serSimilarity 和 Item Similarity: UserSimilarity 用 于 定义 两 个 用 户 间 的 相似 度 ， 它 是 基于 
过 滤 的 推荐 引擎 的 核心 部 分 ， 可 以 用 来 计算 用 户 的 “邻居 ”"， 这 里 的 “邻居 ” 指 与 当前 用 户 







































































的 用 户 。Item Similarity 


UserNeighborhood: User 
过 找到 与 当前 用 户 喜 好 相 





















































来 计算 内 容 之 间 的 相似 度 。 


























Neighborhood 用 于 基于 用 户 相似 度 的 推荐 方法 中 ， 推 荐 的 内 容 
似 的 “邻居 用 户 ” 的 方式 产生 的 。UserNeighborhood 定 义 了 确定 





























户 的 方法 ， 具 体 实现 一 般 是 基于 UserSimilarity 计算 得 到 的 。 


Recommender: Recommender 是 推荐 引擎 的 抽象 接口 ，Taste 中 的 核心 组 件 。 在 程序 














使 
现 基 























中 ， 为 它 提供 一 个 DataModel， 它 可 以 计算 出 对 不 同 用 户 的 推荐 内 容 。 在 实际 应 用 中 ， 主 要 























它 的 实现 类 GenericUserBasedRecommender 或 GenericItemBasedRecommender， 分 别 实 

















于 





户 相似 度 的 推荐 引擎 或 者 基于 内 容 的 推荐 引擎 。 


Java/J2EE 应 用 程序 





图 13-6 Taste 的 主要 组 件 图 








安装 Taste 主 要 包括 以 下 三 部 分 内 容 : 











如 果 需 要 build 源 代码 或 例子 ， 则 需要 Apache Ant 1.5+ 或 Apache Maven 2.0.10+。 














Taste 应 用 程序 需要 Servlet 2.3+ 容 器 ， 例 如 Jakarta Tomcat。 











Taste 中 的 My SQLJDBCDataModel 实 现 需 要 My SQL 4.x+ 数 据 库 。 





安装 Taste 并 运行 Demo 的 步 又 如 下 : 





1) 从 SVN 或 下 载 压缩 包 中 得 到 Apache Mahout 的 发 布 版 本 。 





2) 从 Grouplens 网 站 http: www.grouplens.orgmmode/12 下 载 数据 源 : “1 Million MovieLens 


Dataset’. 


3) 解压 数据 源 压缩 包 ， 将 movie.dat 和 ratings.dat 复 制 到 Mahout 安 装 目录 下 的 taste- 


web/sre/main/resources/org/apache/mahout/c f/taste/exam ple/grouplens H 3K F o 


4) 回 到 core 目 录 下 ， 运 行 “mvn install”, Mahout core 安 装 在 本 地 库 中 。 


TT 





5) #EAtaste-web, 4 ffil]../examples/target/grouplens,jar4l|taste-web/lib H 3. 


6) 编辑 taste-web/recommenderproperties， 将 recommenderclass 设 置 为 


org.apache.mahout.cf.taste.exam ple.grouplens.GroupLensRecommender » 
7) 在 Mahout 的 安装 目录 下 ， 运 行 “mvn package”. 


8) 运行 “mvn jetty: run-war”"， 这 里 需要 将 Maven 的 最 大 内 存 设 置 为 1024MB， 即 : 
MAVEN_OPTS=-Xmx1024MB。 如 果 需 要 在 Tomcat 下 运行 ， 可 以 在 执行 “mvn package” Ja, 
将 taste-web/target 目 录 下 生成 的 war 包 复制 到 Tomcat 的 webapp 下 ， 同 时 也 需要 将 Java 的 最 大 
内 存 设置 为 1024MB, JAVA_OPTS=-Xmx1024MB， 然 后 启动 Tomcat。 








9) 访问 http: /localhost: 8080/[your_app]/RecommenderServlet?userID=1， 得 到 系统 编 
号 为 1 的 用 户 推荐 内 容 。 参 看 图 13-7， 其 中 每 一 行 的 第 一 项 是 推荐 引擎 预测 的 评分 ， 第 二 项 是 
电影 的 编号 。 























Mozilla Firetox 
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图 13-7 Taste Demo 运 行 结果 界面 


10) 同时 ，Taste 还 提供 Web 服 务 访 问 接口 ， 通 过 以 下 URL 访 问 : http: /ocalhost: 
8080/[your_app]/RecommenderService.j ws» 


11) WSDL 文 件 (http: //localhost: 8080/Ly our_app]/RecommenderService.j ws?wsdl) 也 
可 以 通过 简单 的 HTTP 请 求 调用 这 个 Web 服 务 : http: //localhost: 




















8080/[y our_app]/Recommender-Service.j ws?method=recommend & userID=1 &howMany=10 











































































































13.6.3 ”简单 分 布 式 系统 下 基于 产品 的 推荐 系统 简介 

传统 的 推荐 引擎 算法 多 在 单机 上 实现 ， 它 们 只 能 处 理 一 定量 的 数据 。 如 果 数 据 量 达 到 一 
定 的 规模 ， 传 统 的 推荐 引擎 算法 就 会 出 现 各 种 问题 

在 传统 的 推荐 算法 中 ， 算 法 会 将 用 户 喜欢 的 产品 抽象 成 三 个 具体 的 数值 : 用 户 编号 、7 
品 编号 和 喜爱 值 。 这 里 的 喜爱 值 表 示 用 户 对 产品 的 喜爱 程度 ， 它 可 以 用 一 个 具体 数值 来 表 
示 。 例 如 ， 可 以 使 用 1 到 5 来 表示 喜欢 的 程度 :1 表示 非常 不 喜欢 ，2 表 示 不 喜欢 ，3 表 示 没 有 
任何 感觉 ，4 表 示 喜 欢 ; 5 表示 非常 喜欢 。 也 可 以 从 1 到 5 都 表示 喜欢 ， 数 值 越 大 代表 越 喜欢 。 
然后 通过 计算 产品 之 间 的 相似 性 来 向 用 户 推荐 产品 。 

分 布 式 系统 没有 使 用 这 种 方法 。 分 布 式 系统 下 的 推荐 算法 主要 包括 以 下 几 部 分 ; 

计算 表示 产品 相似 性 的 矩阵 。 

计算 表示 用 户 喜好 的 向 量 。 


















































计算 矩阵 与 向 量 的 乘积 ， 为 











在 开始 介绍 推荐 算法 之 前 ， 首 先 建立 一 组 数据 ， 如 表 13-10 所 示 。 在 这 组 数据 
编号 、 





> = | 
产品 














录 包 含 三 个 信息 : 





户 编号 、 


户 推荐 产品 。 




















户 对 产品 的 喜爱 值 。 


bh， 每 条 记 


表 13-10 用 户 够 买 历史 表 





























用 户 编号 喜爱 值 用 户 编号 产品 编号 喜爱 值 
1 5.0 4 101 5.0 
1 3.0 4 103 3.0 
1 103 25 4 104 4.5 
2 101 2.0 g 106 40 
2 102 2.5 5 101 40 
2 103 5.0 5 102 3.0 
2 104 2.0 S 103 2.0 
3 101 25 5 104 40 
3 104 4.0 5 105 3.5 
3 105 45 5 106 40 
3 107 5.0 


























表 13-10 显 示 了 5 名 顾客 的 购买 历史 。 下 面 来 介绍 一 种 方法 : 使 
相似 性 。 在 这 里 ， 产 品 的 相似 性 是 指 产品 出 现在 一 起 的 次 数 。 例 如 从 表 13-10 中 可 以 看 出 产品 





101 和 产品 102 一 共 出 现 过 三 次 ， 分 别 是 在 
矩阵 中 101 和 102 对 应 的 元 素 值 就 应 该 为 ?。 经 过 统计 表 13-10 中 的 5 个 用 户 的 购物 清单 可 以 使 





表 13-11 的 矩阵 来 表示 。 

















Pl, 

















表 13-11 











共生 矩阵 

















户 2、 用 户 5 的 物品 清单 上 。 那 么 在 共生 




















共生 矩阵 来 表示 产品 
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105 





106 





107 1 








R13- PAITAA E a So MRA, PARE EA MES HE 
矩阵 进行 处 理 ， 使 得 程序 的 效率 更 高 。 原 
现 的 次 数 与 产品 105 和 产品 104 出 现 的 次 数 必 然 是 相同 的 。 在 共生 和 拢 














可 以 使 用 一 些 特殊 技术 对 





























意义 的 。 计 算 时 可 以 使 


0 进行 代替 。 


计算 过 程 中 























因 是 产品 104 和 








产品 105 出 


阵 中 对 角 线 的 元 素 是 没有 











除了 共生 和 矩阵 外 ， 还 需要 一 个 表示 











品 必 然 会 有 一 个 表示 喜好 的 数值 ， 





户 喜 好 的 向 量 。 在 该 向 量 中 ， 对 于 用 户 购买 过 的 






































对 于 用 户 没有 购买 的 产品 ， 选 择 用 数字 0 来 表示 该 用 户 对 





























该 产品 没有 任何 喜好 。 例 如 对 于 








户 4 而 言 ， 他 的 向 量 就 应 该 是 〈5.0，0，3.0，4.5，0， 








4.0，0) 。 通 过 计算 可 以 得 到 所 有 

















户 的 喜爱 值 ， 如 表 13-12 所 示 。 


表 13-12 用 户 喜 爱 值 表 












































































































































103 2.5 | 5.0 | 0 | 3.0 T 
104 0 | 2.0 | 4.0 | 4.5 4.0 
105 0 0 45 0 35 
106 0 0 0 40 40 
107 0 0 5.0 0 0 
其 实 该 表 也 是 一 个 矩阵 : 和 矩阵 的 行 值 是 产品 编号 ， 列 值 是 用 户 编号 ， 行 列 对 应 的 元 素 值 
为 用 户 对 产品 的 喜爱 值 。 通 过 观察 可 以 发 现 ， 和 矩阵 中 包含 很 多 0， 这 种 矩阵 可 以 称 为 稀 玻 矩 
阵 。 对 于 稀 玻 矩阵 ， 同 样 可 以 采 些 技术 手段 使 程序 效率 更 高 。 
既然 已 表示 了 产品 的 相似 性 ， 也 表示 了 用 户 对 产品 的 喜爱 ， 剩 下 的 就 是 如 何 计算 推荐 的 
产品 了 。 其 实 这 很 简单 ， 只 要 将 共生 矩阵 与 用 户 的 列 向 量 相 乘 得 到 一 个 新 的 列 向 量 即 可 。 在 
新 的 列 向 量 中 ， 所 有 可 以 推荐 产品 对 应 的 值 最 大 ， 就 是 计算 得 到 的 推荐 产品 。 
以 向 用 户 4 推荐 产品 为 例 ， 如 表 13-13 所 示 。 























表 1 


313 用 户 4 的 推荐 结果 


推荐 结果 








101 





102 





103 





104 





105 





106 





107 














从 结果 可 以 看 出 ， 

















户 最 喜欢 产品 103， 但 是 103 已 经 买 过 ， 











因 








无 











01、 
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104、106 也 者 








Kl 








擎 选 





表示 
又 和 产品 102 同 时 出 现 





02 的 计算 机 结果 是 三 者 之 


回想 整个 计算 过 程 。 


可 以 不 推荐 。 在 可 以 
大 的 。 


= 


也 





推荐 结果 已 经 有 了 ， 下 面 来 分 析 这 个 结果 是 
择 了 计算 结果 最 大 的 产品 。 为 什么 计算 结果 最 大 





在 计算 结果 


的 是 所 有 产品 和 产品 102 同 时 出 现 的 次 数 。 如 果 











推荐 的 产品 102、105、107 寺 


Fo 


须 推荐 该 产品 。 同 理 
选择 推荐 产品 102。 





否 合理 。 在 所 有 可 以 推 
的 产品 就 是 最 合理 


中 处 在 第 2 行 的 计算 结果 37 是 矩阵 第 2 行 元 素 和 
列 向 量 的 乘积 ，3x (5.0) +0x0+3x3+2x (4.5) +1x0+1x (4.0) +0x0=37. HERE 





荐 的 产品 中 ， 推 荐 引 
的 推荐 产品 呢 ? 








户 4 的 
第 2 行 














h 




















户 对 某 个 产品 非常 喜欢 ， 而 这 个 产 


[=] 
HI 


El 


的 次 数 很 多 ， 那 么 乘积 对 计算 结果 的 影响 就 会 较 大 。 这 刚好 就 是 推荐 























引擎 要 达到 的 目的 ， 


对 于 大 量 数据 ， 计 算 结果 会 非常 大 。 但 是 没有 关系 ， 推 荐 引擎 关注 
为 最 终 向 
计算 结果 以 及 


关系 ， 而 不 是 具体 的 数 
算 的 过 程 中 ， 对 于 不 是 





此 也 不 必 计 算 它们 的 结 


通过 分 析 可 知 ， 
WE? 下 面 来 说 明 这 个 


问 











户 非常 喜欢 的 产品 和 102 很 相 





户 推荐 该 产品 。 





以 ， 推 荐 引擎 可 向 











值 。 因 
最 大 


Ro 











的 


荐 引擎 计算 出 的 推荐 结果 是 合理 的 。 但 为 什么 
EE 矩阵 的 时 候 ， 每 次 只 需 考虑 一 个 向 量 ， 在 计算 





tt 


a. FE 











量 的 时 候 只 需 考虑 该 


户 的 喜好 ; Ey 














荐 的 是 可 以 推荐 产品 
户 已 经 购买 过 的 产品 ， 





Hy 


户 
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已 


[ 算 推荐 结果 的 时 候 只 需 考虑 矩阵 


的 是 所 有 结果 的 大 小 
算 结 果 最 大 的 。 在 计 
荐 引擎 无 须 推 荐 ， 





因 











和 人 
a 


大 规模 的 数据 
户 向 


的 一 列 值 。 这 都 表 


适 
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明 ， 这 个 方法 可 以 使 用 MapReduce 编 程 模式 。 











13.7 本 章 小 结 


本 章 对 Mahout 做 了 简要 介绍 ， 主 要 有 Mahout 的 详细 安装 过 程 ，Mahout API 的 介绍 ， 
Mahout 中 已 经 实现 的 频繁 模式 挖掘 算法 、 分 类 算法 、 聚 类 算法 ， 并 着 重 对 Kmeans 聚 类 算法 
做 了 介绍 。 其 中 还 涉及 了 聚 类 算法 中 的 数据 表示 。 在 推荐 引擎 部 分 ， 着 重 从 思想 上 介绍 了 如 
何在 Hadoop 云 平台 下 实现 分 布 式 的 推荐 系统 。Mahout 虽 然 经 过 了 几 年 的 发 展 ， 但 还 是 有 很 多 
地 方 值 得 去 探索 。 如 果 读 者 有 兴趣 加 入 其 中 ， 可 以 访问 Mahout 的 官网 ， 与 世界 各 地 的 开发 者 
共同 推动 Mahout 的 发 展 。 















































本 章 内 


oY 


Pig 简 介 
了 Pig 的 安装 和 配置 


Pig Latin 语 言 

















户 定义 函数 





Zebra 简 介 
Pig 实 例 


Pig 进 阶 





14 章 ”Pig 详 解 








14.1 了 Pig 简介 


作为 Apache 项 目的 一 个 子 项 目 ，Pig 提 供 了 一 个 支持 大 规模 数据 分 析 的 可 


FR. Pithi 
来 描述 数据 分 析 程 序 的 高 级 程序 语言 ， 以 及 对 这 些 程序 进行 评估 的 基础 结构 。Pig 突 出 的 特点 
就 是 它 的 结构 经 得 起 大 量 并 行 任务 的 检验 ， 这 使 得 























o Bb 


te 





够 处 理 大 规模 数据 集 。 
目前 ，Pig 的 基础 结构 


层 包 括 一 个 产生 MapReduce 程 序 的 编译 器 。Pig 的 语言 层 包括 一 个 
叫做 Pig Latin 的 文本 语言 ， 它 具有 以 下 主要 特性 : 





易于 编程 。 实 现 简单 








的 和 高 度 并 行 的 数据 分 析 任 务 非常 容易 。 由 相互 关联 的 数据 转换 实 
例 所 组 成 的 复杂 任务 被 明确 地 编码 为 数据 流 ， 这 使 他 们 的 编写 更 加 容易 ， 同 时 也 更 容易 理解 
和 维护 。 


自动 优化 。 任 务 编码 的 方式 允许 系统 自动 去 优化 执行 过 程 ， 从 而 使 
义 ， 而 非 效 率 。 

















户 能 够 专注 于 语 








可 扩展 性 。 




















户 可 以 轻松 编写 自己 的 函数 来 进行 特殊 














途 的 处 理 。 


14.2 Pig 的 安装 和 配置 


14.2.1 Pig 的 安装 条 件 


1.Hadoop 1.0.1 





Pig 有 两 种 运行 模式 : Local 模 式 和 MapReduce 模 式 。 如 果 需 要 让 作业 在 分 布 式 环境 下 运 





行 ， 则 需要 安装 Hadoop， 否 则 























1.0.1， 当 然 











版 本 修正 了 





2.Java 





以 前 版 本 中 


户 也 可 以 选择 安装 








户 可 以 选择 不 安装 。 另 外 ， 当 前 Hadoop 最 新 的 版 本 为 
其 他 版 本 ， 不 过 这 里 建议 安装 最 新 的 Hadoop 版 本 。 因 为 新 的 
的 一 些 错误 ， 并 且 添加 了 新 的 特性 [1] 。 


建议 安装 Java 1.6 以 上 的 版 本 。Java 环 境 对 于 Pig 来 说 是 必需 的 (推荐 从 SUN 官 方 网 站 下 


载 ) 。 


当下 载 安装 完毕 Java 后 ， 我 们 还 需要 对 Java 环 境 变量 进行 设置 ， 将 JAVA_. 


Java 的 安装 位 置 。 

















如 果 
操作 系统 ， 
系统 为 例 进 








户 使 
那么 








的 是 Linux: 














户 使 





操作 系统 ， 那 么 以 上 条 件 就 足够 了 。 如 果 














REZ wh, H 


行 讲解 。 


[1] 关于 Hadoop 的 具体 信息 见 


户 还 需要 安装 Cygwin 和 Perl 包 。 本 章 后 面 





目 关 章 节 。 








的 案例 


OME 指 向 


的 是 Windows 





将 以 Linux 操 作 


14.2.2 了 Pig 的 下 载 、 安 装 和 配置 




















当前 Pig 最 新 版 本 为 0.10.0， 除 此 之 外 ，Pig 还 有 其 他 版 本 ， 如 0.9.2、0.8.1 两 个 版 本 ， 用 户 
可 以 根据 需要 从 Apache 宣 方 网 站 上 下 载 相应 的 版 本 。 本 书 使 用 最 新 版 的 Pig 0.10.0， 安 装 包 下 
载 地 址 如 下 : 
































和 
http: //www.apache.org/dyn/closer.cgi/pig 
| 














Pig 的 安装 包 下 载 完成 后 ， 需 要 使 用 tar-xvf pig-*.*.*.tar.gz 命 令 将 其 解压 。 我 们 可 以 将 Pig 
放 在 系统 中 的 任意 位 置 上 ， 并 且 只 需要 配置 相应 的 环境 变量 就 可 以 使 有 Pig 了。 不 过 我 们 建议 
将 Pig 放 在 Hadoop 目 录 下 ， 方 便 以 后 的 操作 。 



































解压 完成 后 ， 需 要 设置 Pig 相 应 的 环境 变量 。 环 境 变 量 有 多 种 设置 方法 ， 用 户 可 以 根据 自 
己 的 需要 进行 选择 。 这 里 我 们 选择 对 profile 文 件 进行 修改 ， 来 设置 Pig 相 应 的 环境 变量 。 打 
开 “/etc/profile”* 文 件 ， 插 入 下 面 的 一 条 语句 ， 保 存 关 闭 文 件 后 需要 重启 系统 以 使 环境 变量 设 
置 生效 : 























C====== = == == 44 
export PIG HOME=/<path-to-pigDir> 
export PATH=$PIG HOME/bin: $PIG HOME/conf: $PATH 

= Eee 


当 环 境 变 量 设置 生效 后 ， 我 们 可 以 通过 “pig-help”* 命 令 来 查看 Pig 是 否 安装 成 功 。Pig 安 装 
成 功 后 会 出 现 如 下 所 示 的 提示 : 





= + 
hadoop@master: ~/hadoop-1.0.1/pig-0.10.0$pig-help 
Apache Pig version 0.10.0 (r1328203) 
compiled Apr 19 2012, 22: 54: 12 
USAGE: Pig[options][-]: Run interactively in grunt shell. 
Pig[options]-e[xecute]cmd[cmd.....]: Run cmd (s) . 
Pig[options] [-f[ile]]file: Run cmds found in file. 
options include: 
-4, -log4jconf-Log4j configuration file, overrides log conf 
-b, -brief-Brief logging (no timestamps) 
-c, -check-Syntax check 


-d, -debug-Debug level, INFO is default 

-e, -execute-Commands to execute (within quotes) 

-f, -file-Path to the script to execute 

-g, -embedded-ScriptEngine classname or keyword for the 
ScriptEngine 

-h, -help-Display this message.You can specify topic to get 
help for that topic. 

properties is the only topic currently supported: -h 
properties. 

-i, -version-Display version information 

-l, -logfile-Path to client side log file; default is current 
working directory. 

-m, -param_file-Path to the parameter file 

-p, -param-Key value pair of the form param=val 

-r, -dryrun-Produces script with substituted 
parameters.Script is not executed. 

-t, -optimizer_off-Turn optimizations off.The following 
values are supported: 

SplitFilter-Split filter conditions 

PushUpFilter-Filter as early as possible 

MergeFilter-Merge filter conditions 

PushDownForeachFlatten-Join or explode as late as possible 

LimitOptimizer-Limit as early as possible 

ColumnMapKeyPrune-Remove unused data 

AddForEach-Add ForEach to remove unneeded columns 

MergeForEach-Merge adjacent ForEach 

GroupByConstParallelSetter-Force parallel 1 for"group 
all"statement 

All-Disable all optimizations 

All optimizations listed here are enabled by 
default.Optimization values 

are case insensitive. 

-v, -verbose-Print all error messages to screen 

-w, -warning-Turn warning logging on; also turns warning 
aggregation off 

-x, -exectype-Set execution mode: local|mapreduce, default is 
mapreduce. 

-F, -stop_on_failure-Aborts execution on the first failed 
job; default is off 

-M, -no_multiquery-Turn multiquery optimization off; default 
is on 

-P, -propertyFile-Path to property file 
一 


14.2.3 ”Pig 运行 模式 





Pig 有 两 种 运行 模式 : Local 模 式 和 MapReduce 模 式 。 当 Pig 在 Local 模 式 运 行 时 ， 它 将 只 
访问 本 地 一 台 主机 ; 当 Pig 在 MapReduce 模 式 运行 时 ， 它 将 访问 一 个 Hadoop 集 群 和 HDFS 的 安 
装 位 置 。 这 时 ，Pig 将 自动 地 对 这 个 集群 进行 分 配 和 回收 。 因 为 Pig 系 统 可 以 自动 对 
MapReduce 程 序 进行 优化 ， 所 以 当 用 户 使 用 Pig Latin 语 言 进行 编程 的 时 候 ， 不 必 关心 程序 运 
行 的 效率 ，Pig 系 统 将 会 自动 对 程序 进行 优化 。 这 样 能 够 大 量 节省 用 户 编程 的 时 间 。 
























































下 面 我 们 首先 介绍 Pig 在 Local 模 式 下 的 运行 方式 。Pig 的 Local 模 式 适 用 于 用 户 对 程序 进 
行 调试 ， 因 为 Local 模 式 下 的 Pig 将 只 访问 本 地 一 台 主 机 ， 它 可 以 在 短 时 间 内 处 理 少 量 的 数 

据 ， 并 且 用 户 不 必 关 心 Hadoop 系 统 对 整个 集群 的 控制 ， 这 样 既 能 让 用 户 使 用 Pig 的 功能 ， 又 
不 至 于 在 集群 的 管理 上 花费 太 多 时 间 。 



















































































Pig 的 Local 模 式 和 MapReduce 横 式 都 有 三 种 运行 方式 ， 分 别 为 : Grunt Shell 方 式 、 脚 本文 
件 方式 和 藤 入 式 程序 方式 。 下 面 我 们 将 对 其 进行 一 一 介绍 。 


.Local 模 式 


(1) Grunt Shell 方 式 

















户 使 用 Grunt Shell 方 式 时 ， 需 要 首先 使 用 命令 开启 Pig 的 Grunt Shell， 只 需 在 Linux 终 端 
中 输入 如 下 命令 并 执行 即 可 : 



































$pig-x local 


这 样 Pig 将 进入 Grunt Shell 的 Local 模 式 ， 如 果 直 接 输 入 “pig”* 命 令 ，Pig 将 首先 检测 Pig 的 环 
境 变 量 设置 ， 然 后 进入 相应 的 模式 。 如 果 没 有 设置 MapReduce 环 境 变 量 ，Pig 将 直接 进入 
Local 模 式 。 图 14-1 为 开启 Grunt Shell 的 结果 。 


图 14-1 Local 模 式 下 开启 Grunt Shell 











Grunt Shell 和 Windows 中 的 Dos 窗 口 非常 类 似 ， 这 里 用 户 可 以 一 条 一 条 地 输入 命令 对 数据 
进行 操作 。 














(2) 脚本 文件 方式 




















使 用 脚本 文件 作为 批 处 理 作 业 来 运行 Pig 命 令 ， 它 实际 上 就 是 第 一 种 运行 方式 运行 脚本 中 
命令 的 集合 ， 使 用 如 下 命令 可 以 在 本 地 模式 下 运行 Pig 脚 本 : 


5 
$pig-x local script.pig 
一 









































其 中 ，“script.pig”* 对 应 的 是 Pig 脚 本 ， 用 户 在 这 里 需要 正确 指定 Pig 脚 本 的 位 置 ， 否 则 ， 
系统 将 不 能 识别 。 例 如 ，Pig 脚 本 放 在 “rootpigTmp" 目 录 下 ， 那 么 这 里 就 要 写 

成 “rootpigTmp/scriptpig”。 用 户 在 使 用 的 时 候 需 要 注意 Pig 给 出 的 一 些 提示 ， 充 分 利用 这 些 
提示 能 够 帮助 用 户 更 好 地 使 用 Pig 进 行 相关 的 操作 [1] 。 

























































































(3) 嵌入 式 程序 方式 





我 们 可 以 把 Pig 命 令 嵌 入 到 其 他 编程 语言 中 ， 并 且 运 行 这 个 嵌入 式 程序 。 和 运行 普通 的 
Java 程 序 相 同 ， 这 里 需要 书写 特定 的 Java 程 序 ， 并 且 将 其 编译 生成 对 应 的 class 文 件 或 package 
包 ， 然 后 再 调用 main 函 数 运行 程序 。 



























































户 可 以 使 用 下 面 的 命令 对 Java 源 文件 进行 编译 ， 
SSE | 


$javac-cp pig-*.*.*-core.jar local.java 
E 




















这 里 “pig-*.*#.*-corejar" 放 在 Pig 安 装 目 录 下 , “localjava” 为 用 户 编写 的 Java 源 文件 ， 并 
日 “pig-*.*.*-core.jar” 和 “localjava” 需 户 正确 地 指定 相应 的 位 置 。 例 如 ， 我 们 的 “pig- 
** *-core jar” XC fF MLE“ /root/hadoop-0.20.2/ Hak F, “local.java” 文 件 放 在 “/root/pigTmp” 目 





























录 下 ， 那 么 这 一 条 命令 我 们 应 该 写成 ; 


a 
$javac-cp/root/hadoop-0.20.2/pig-0.20.2- 
core.jar/root/pigTmp/local.java 


——or--- TOTO OOOO OOO | 





























当 编 译 完成 后 ，Java 会 生成 “local.class” 文 件 ， 然 后 用 户 可 以 通过 如 下 命令 调用 执行 此 文 
件 。 


[= | 
$java-cp pig-*.*.*-core.jar: .local 


| i | 











2.MapReduce 模 式 
Pig 需 要 把 真正 的 查询 转换 成 相应 的 MapReduce 作 业 ， 并 提交 到 Hadoop 集 群 去 运行 ( 集 


群 可 以 是 真实 的 分 布 ， 也 可 以 是 伪 分 布 ) 。 要 想 Pig 能 识别 Hadoop， 用 户 需 要 告诉 Pig 要 连接 
的 Hadoop 的 安装 目录 。 我 们 只 需要 设置 HADOOP_HOME 环 境 变 量 : 



































= 
export HADOOP_HOME=/path/to/hadoop 
> 











当 设置 完毕 并 且 生效 之 后 ， 用 户 可 以 输入 “pig-x mapreduce” 命 令 进行 测试 ， 如 果 能 够 看 
到 Pig 连 接 Hadoop 的 NameNode 和 JobTrakcer 的 相关 信息 ， 则 表明 配置 成 功 ， 用 户 就 可 以 随心 
所 和 欲 地 使 用 MapReduce 模 式 来 进行 相关 的 Pig 操 作 了 。 





















































图 14-2 为 MapReduce 配 置 成 功 后 的 提示 信息 ， 从 图 中 可 以 看 到 Pig 连 接 Hadoop 的 详细 信 





息 。 





图 14-2 MapReduce 配 置 成 功 的 提示 信息 


配置 成 功 之 后 ， 下 面 我 们 将 针对 Pig 的 MapReduce 模 式 ， 说 明 如 何在 此 模式 下 对 Grunt 





Shel 方 式 、 脚 本 文件 方式 和 嵌入 式 程序 方式 进行 操作 。 它 们 和 Local 模 式 下 的 操作 几乎 相同 ， 


只 不 过 




















需要 将 相应 的 参数 指明 为 MapReduce 模 式 。 


(1) Grunt Shell 方 式 


户 在 Linux 终 端 下 输入 如 下 命令 ， 进 入 Grunt Shell 的 MapReduce 模 式 : 


SSF 
Spig-x mapreduce 
| 


(2) 脚本 文 1 


件 方式 




















户 可 以 使 











如 下 命令 在 MapReduce 模 式 下 运行 Pig 脚 本 文件 : 


二 一 
$pig-x mapreduce script.pig 
5i 


HR. 


(3) 


RA 


=F 


和 Local 模 式 相 同 ， 在 MapReduce 模 式 下 运行 

















Pa 








以 使 














如 下 两 条 命令 ， 完 成 相应 的 操作 。 


联 入 式 程序 同样 需要 经 过 编译 和 执行 两 个 步 





二 一 


javac-cp pig-0.10.0-core.jar mapreduce.java 
java-cp pig-0.10.0-core.jar: .mapreduce 


TTT | 








至 此 ，Pig 系 统 的 两 个 运行 模式 及 其 分 别 对 应 的 三 个 运行 方式 就 讲述 完毕 了 ，14.5 和 14.6 
节 我 们 将 结合 实例 ， 对 其 做 更 深入 的 介绍 ， 在 这 里 希望 大 家 能 够 对 Pig 系 统 的 运行 模式 有 一 个 
初步 的 印象 。 














站 注意 : 这 里 scriptpig 前 后 没有 引号 。 


14.3 Pig Latin 语 言 


14.3.1 Pig Latin 语 言 简介 





Pig Latin 语 言 和 传统 的 关系 数据 库 中 的 数据 库 操作 语言 非常 类 似 。 但 是 Pig Latin 语 言 
侧重 于 对 数据 的 查询 和 分 析 ， 而 不 是 对 数据 进行 修改 和 删除 等 操作 。 另 外 ， 由 于 Pig Latin 可 
以 在 Hadoop 的 分 布 式 云 平 台 上 运行 ， 它 的 这 个 特点 可 以 让 其 具有 其 他 数据 库 无 法 比拟 的 速度 
优势 ， 能 够 在 短 时 间 内 处 理 海量 的 数据 。 例 如 ， 处 理 系统 日 志文 件 、 处 理 大 型 数据 库 文件 、 
处 理 特定 Web 数 据 等 。 除 此 之 外 ， 我 们 在 使 用 Pig Latin 语 言 编 写 程序 的 时 候 ， 不 必 关 心 如 何 
让 程序 能 够 更 好 地 在 Hadoop 云 平台 上 运行 ， 因 为 这 些 任务 都 是 由 Pig 系 统 自 行 分 配 的 ， 不 需 
要 程序 员 参 与 。 因 此 ， 程 序 员 只 需要 专注 于 程序 的 编写 即 可 ， 这 样 大 大 减轻 了 程序 员 的 负 


担 。 















































Pig Latin 是 这 样 一 个 操作 :通过 对 关系 relation》 进 行 处 理 产生 另外 一 组 关系 [1] 。Pig 
Latin 语 言 在 书写 一 条 语句 的 时 候 能 够 跨越 多 行 ， 但 是 必须 以 半角 的 分 号 来 结束 。Pig Latin 语 
句 通常 按照 下 面 的 流程 来 编写 : 








1) 通过 一 条 LOAD 语 句 从 文件 系统 中 读 取 数 据 ; 


2) 通过 一 系列 “转换 "语句 对 数据 进行 处 理 ; 




















3) 通过 一 条 STORE 语句 把 处 理 结果 输出 到 文件 系统 中 ， 或 者 使 用 一 条 DUMP 语 句 把 处 
理 结果 输出 到 屏幕 上 。 




















LOAD 和 STORE 语句 有 严格 的 语法 规定 ， 用 户 很 容易 就 能 掌握 ， 关 键 是 如 何 灵 活 使 
“转换 "语句 对 数据 进行 处 理 。 












































Pig Latin 语 言 还 可 以 对 数据 进行 连接 操作 ， 在 14.6 节 中 ， 我 们 将 通过 一 组 例子 ， 让 用 户 
对 Pig Latin 语 言 的 特点 有 更 好 的 体会 。 





[1] 这 个 定义 适用 于 除 LOAD 和 STORE 之 外 的 所 有 操作 ，LOAD 和 STORE 分 别 执行 从 文件 系统 
读 取 和 写 入 的 操作 。 














14.3.2 Pig Latin 的 使 























tah 
st 


这 一 节 我 们 着 重 讲 一 下 Pig Latin 可 以 用 在 哪些 方面 。 


.运行 Pig Latin 
































户 可 以 通过 多 种 方式 使 用 Pig Latin 语 句 ， 如 14.2.3 所 述 。 通 常 ，Pig 按 如 下 方式 执行 Pig 


Latin 语 句 : 








) Pig 对 所 有 语句 的 语法 和 语义 进行 确认 ; 
2) 如 果 遇 到 DUMP 或 者 STORE 命令 ，Pig 将 顺序 执行 上 面 所 有 的 语句 。 


在 下 面 的 示例 中 ，Pig 将 只 确认 LOAD 和 FOREACH 语 句 ， 但 不 执行 : 


== = = 二 === = 二 == 
A=LOAD'Student'USING PigStorage (': ') AS (Sno: chararray, 
Sname: chararray, Ssex: 
chararray, Sage: int, Sdept: chararray) ; 
B=FOREACH A GENERATE Sname; 


一 





在 下 面 的 示例 中 ，Pig 将 确认 并 执行 LOAD、FOREACH 和 DUMP 语 句 : 








二 一 
A=LOAD'Student'USING PigStorage (': ') AS (Sno: chararray, 
Sname: chararray, Ssex: c 
hararray, Sage: int, Sdept: chararray) 3 
B=FOREACH A GENERATE Sname; 
DUMP B; 

















因为 Pig 的 一 些 命令 并 不 会 自动 执行 ， 而 是 需要 通过 其 他 命令 来 触发 ， 也 就 是 说 如 果 用 户 
连续 地 使 用 某 些 命令 ， 它 并 不 会 马上 执行 ， 而 是 在 最 后 的 一 个 触发 操作 的 调用 下 ， 连 续 
次 性 地 执行 完毕 。 





























E 














2. 查 看 Pig Latin 的 运行 结果 

















Pig Latin 包 括 一 些 用 来 查看 语句 运行 结果 的 操作 。 














1) 使 用 DUMP 操 作 把 操作 的 结果 显示 在 屏幕 上 ， 如 下 所 示 : 











= 
DUMP alias; 
三 一 














2) 使 用 STORE 操 作 把 操作 的 结果 存储 在 文件 中 ， 如 下 所 示 : 











= 
STORE alias INTO'directory'[USING function]; 
一 


3.Pig Latin 的 调试 











Pig Latin 包 括 一 些 可 以 帮助 用 户 进行 调试 的 操作 。 




















1) 使 用 DECSRIBE 操 作 查 看 关系 的 模式 ， 如 下 所 示 : 











OO a4 | 
DESCRIBE alias; 
FF = == = 

















2) 使 用 EXPLAIN 操 作 查 看 对 某 个 关系 进行 操作 的 逻辑 的 、 物 理 的 或 者 MapReduce 的 执 
行 计划 ， 如 下 所 示 : 





= 
EXPLAIN[-script pigscript] [-out path] [-brief] [-dot] [-param 
param_name= 
param_value] [-param_file file_name]alias; 


=_ljlHOHOW—--—080  oOrOEOESm ee Ss” eee 











3) 使 用 ILLUSTRATE 操 作对 Pig Latin 语 句 进行 单 步 执行 ， 如 下 所 示 : 











| ooeaeaeaeaeananaoaoaoanananao»—E— = 
ILLUSTRATE alias; 


二 一 














4. 注 释 在 Pig Latin 脚 本 中 的 使 














注释 就 是 对 代码 的 解释 和 说 明 。 目 的 是 为 了 让 别人 和 自己 很 容易 看 懂 。 像 其 他 的 编程 语 
言 一 样 ，Pig Latin 脚 本 中 也 可 以 包含 注释 ， 下 面 是 两 种 常用 的 注释 格式 : 























(1) 多 行 注释 : /*..…....*/ 


示例 : 
| 

/* 

myscript.pig 

My script includes three simple Pig Latin Statements. 

*/ 
一 


(2) 单行 注释 : -- 


示例 : 
| 
A=LOAD'Student'USING PigStorage (': ') ; -- 语 句 
B=FOREACH A GENERATE Sname; --foreach 语 句 
DUMP B; --dump 语 句 
一 =| 


5. 大 小 写 相 关 性 


在 Pig Latin 中 ， 关 系 名 、 域 名 、 函 数 名 是 区 分 大 小 写 的。 参数 名 和 所 有 Pig Latin 关 键 字 
是 不 区 分 大 小 写 的 。 











请 注意 下 面 的 示例 : 


关系 名 A、B、C 等 是 区 分 大 小 写 的 ; 





域名 f1， 和 2、f3 等 是 区 分 大 小 写 的 ; 








函数 名 PigStorage、COUNT 等 是 区 分 大 小 写 的 ; 


关键 字 LOAD, USING, AS, GROUP, BY, FOREACH, GENERATE, DUMP 等 是 不 


区 
$ 


7 大 小 





写 的 ， 它 们 也 能 被 写成 lgad、using、as、group、by 、foreach、generate 、dump 等 。 在 


FOREACH 语 句 叶 





Ph， 关 系 Bq 





P 的 域 通过 位 置 来 访问 ， 如 下 所 示 : 


Â 
grunt>A=LOAD'data'USING PigStorage () AS (fl: int, f2: int, 


f3: int); 


grunt>B=GROUP A BY fl; 
grunt >C=FOREACH B GENERATE COUNT ($0) ; 
grunt>DUMP C; 


Eaa | 


14.3.3 Pig Latin 的 数据 类 型 
1 .数据 模式 


Pig Latin 中 数据 的 组 织 形 式 包 括 : 关系 (relation) 、 包 (bag) 、 元 组 〈tuple) 和 域 
(field) 。 





一 个 关系 可 以 按 如 下 方式 定义 ; 


一 个 关系 就 是 一 个 包 ( 更 具体 地 说 ， 是 一 个 外 部 包 ); 


包 是 元 组 的 集合 





元 组 是 域 的 有 序 集合 ; 





域 是 一 个 数据 块 。 





一 个 Pig 关 系 是 一 个 由 元 组 组 成 的 包 ，Pig 中 的 关系 和 关系 数据 库 中 的 表 Ctable) 很 相 
似 ， 包 中 的 元 组 相当 于 表 中 的 行 。 但 是 和 关系 表 不 同 的 是 ，Pig 中 不 需要 每 一 个 元 组 包含 相同 
数目 或 者 相同 位 置 的 域 〈 同 列 域 ) ， 也 不 需要 具有 相同 的 数据 类 型 。 

















另外 ， 关 系 是 无 序 的 ， 这 就 意味 着 Pig 不 能 保证 元 组 按 特定 的 顺序 来 执行 。 
2. 数 据 类 型 


表 14-1 给 出 了 一 些 简单 数据 类 型 的 描述 及 示例 。 限 于 篇 幅 我 们 不 再 做 更 详细 的 介绍 ， 具 
体内 容 大 家 可 以 在 使 用 中 慢 慢 体会 。 























表 14-1 Pig Latin 数据 类 型 


数据 类 型 摘 ik 






















































be 有 符号 32 位 整 型 
:10L a 101 
n 符号 64 位 整 弄 
long 有 符号 64 位 整 型 10L 
标量 数 0.5F 或 10.5f 或 10.5e2f 或 10.5E2F 
JANAN $ -SF 或 10.5f 或 10.Se2 .SE2 
A RAPHE 显示 :10.5F or 1050.08 
EN 0.5 or 10.5e2 or 10.5E2 
— 64 (FR a = 10.5 or 1050.0 
CR) 
数据 类 型 Ho ik a O A 
à chararray | 字符 数组 使 用 UTF-8 格式 进行 编码 | hello world 
ba bytearray | ti | 
tuple [EFUFE | (19,2) 
复杂 数据 类 型 bag | 元 组 集合 | 109,3 019.2), 08.1) 
map 键 值 对 集合 [open#apache] 





14.3.4 Pig Latin 关 键 字 





Pig Latin 语 言 有 很 多 关键 字 ， 但 是 我 们 不 可 能 一 一 给 大 家 介绍 。 在 下 面 的 第 一 部 分 的 内 
容 中 ， 我 们 给 大 家 介绍 Pig Latin 语 言 都 包含 哪些 关键 字 ， 然后 在 第 二 部 分 ， 我 们 就 其 中 主要 
的 关键 字 给 大 家 做 详细 介绍 。 








1.Pig Latin 关 键 字 


表 14-2 给 出 了 一 些 与 首 字母 相对 应 的 关键 字 。 


表 14-2 Pig Latin 关键 字 











and, any, all, arrange, as, ase, AVG 





bag, BinStorage, by, bytearray 





$ cache, cat, cd, chararray, cogroup, CONCAT, copyFromLocal, copyToLocal, COUNT, cp, cross 





declare, “ndefault, define, des 





. deseribe, DIFF, distinct, double, du, dump 





e, B, eval, exec, explain 








, filter, flatten, float, foreach, full 





generate, group 









































help 
=q join 
-L 1, L, left. Limit, load, long, ts 
-M map, matches, MAX, MIN, mkdir, mv 
--N not, null 
--0 or, order, outer, output 
-Q quit 
--R regi: right, rm, rmf, run 
-S$ sample, set, ship, SIZE, split, stderr, stdin, stdout, store, stream, SUM 
= TextLoader, TOKENIZE, through, tuple 
=U union, using 
CR) 
首 字母 











-- V, W, X, Y, Z 




















ZEAN 




















在 Pig Latin 常 
函数 和 文件 命令 。 




















的 关键 字 中 ， 我 们 将 其 分 为 四 类 : 关系 运算 符 、 诊 断 运算 符 、Load/Store 
































是 从 文件 系统 中 加 载 数据 ， 语 法 如 下 ; 





本 
LOAD'data' [USING function] [AS schema] 
一 














在 这 里 “data” 表 示 文 件 或 目录 的 名 字 ， 并 且 要 用 单 引号 括 起 来 。 如 果 用 户 指定 一 个 目录 
的 名 字 ， 目 录 中 所 有 的 文件 将 被 加 载 。 中 括号 中 的 内 容 为 可 选项 (如果 没有 特殊 指 
明 ,“[]” 都 表示 可 选项 ) ， 用 户 只 在 需要 的 时 候 指 明 ， 可 以 省 略 。 这 里 使 用 schema 来 指定 加 
载 数据 类 型 ， 如 果 数据 类 型 与 模式 中 指定 的 数据 类 型 不 符 ， 那 么 系统 将 产生 一 个 null， 甚 至 


会 报错 。 







































































下 面 是 我 们 给 出 的 几 个 Load 操 作 的 例子 : 











不 使 用 任何 方式 : 











5 
A=LOAD'myfile.txt'; 
es | 


使 用 加 载 函数 : 


| EEEE: 
A=LOAD'myfile.txt'USING PigStorage ('\t'); 
eee 




















指定 模式 : 


| IMr | 
A=LOAD'myfile.txt'AS (f1: int, f2: int, f3: int); 
1 











加 载 函 数 和 模式 均 使 











| 
A=LOAD'myfile.txt'USING PigStorage ('\t') AS (f1: int, £2: int, 
£3: int); 











它 的 作用 是 将 结果 保存 到 文件 系统 中 ， 语 法 如 下 所 示 : 














rr | 
STORE alias INTO'directory'[USING function]; 
一 








这 里 的 “alias”* 是 用 户 要 存储 的 结果 (关系 ) 的 名 称 ，INTO 为 不 可 省 略 的 关键 字 ， 
Directory 为 用 户 指定 的 存储 目录 的 名 字 ， 需 要 用 单 引 号 括 起 来 。 另 外 ， 如 果 此 目录 已 经 存 
在 ， 那 么 Store 操 作 将 会 失败 ， 输 出 文件 将 被 系统 命名 成 part-nnnnn 的 格式 。 















































Foreach 











它 的 作用 是 基于 数据 的 列 进行 数据 转换 ， 语 法 如 下 : 











= 
alias=FOREACH{gen_blk|nested_gen_blk}[AS schema]; 
| 











通常 我 们 使 用 "FOREACH.……GENERATE” 组 合 来 对 数据 列 进行 操作 ， 下 面 是 两 个 简单 
的 例子 。 





























如 果 一 个 关系 A (outer bag) ，FOREACH 语 句 可 以 按 下 面 的 方式 来 使 


5 
X=FOREACH A GENERATE f1; 
i 

















如 果 A 是 一 个 inner bag, FOREACH 语 句 可 以 按 下 面 的 方式 来 使 





5 
X=FOREACH B{ 
S=FILTER A BY'xyz'; 
GENERATE COUNT (S.$0) ; 
} 
I 











对 于 初级 用 户 来 说 ， 仅 需要 掌握 第 一 种 操作 方式 ， 关 于 Foreach 关 键 字 的 更 多 内 容 我 们 将 
在 今后 进行 详细 的 讨论 。 














(2) 诊断 运算 符 


Dump 











它 的 作用 是 将 结果 显示 到 屏幕 上 ， 语 法 如 下 : 











eee 
DUMP alias 


二 一 


这 里 的 “alias” 为 被 操作 关系 的 名 字 。 












































使 用 DUMP 操 作 符 来 执行 Pig Latin 语 句 ， 并 且 把 结果 输出 到 屏幕 上 。 使 用 DUMP 意 味 着 
使 用 交互 式 模式 ， 也 就 是 说 ， 语 句 被 马上 执行 ， 但 结果 并 没有 被 保存 。 用 户 可 以 使 用 DUMP 
作为 一 个 调试 设备 ， 用 来 检查 用 户 期 望 的 数据 是 否 已 经 生成 。 另 外 用 户 应 该 有 选择 地 使 
DUMP ， 因 为 它 会 使 多 值 查询 优化 无 效 ， 并 且 可 能 会 减 慢 执行 。 

















































































































示例 : 


TT | 
A=LOAD'student'AS (name: chararray, age: int, gpa: float); 
DUMP A; 


| 





这 里 Pig 将 会 把 A 中 所 有 的 数据 输出 到 屏幕 上 。 


Describe 

















它 的 作用 是 返回 一 个 名 称 的 模式 ， 语 法 如 下 : 








= 
DESCRIBE alias; 
ee | 














使 用 DESCRIBE 操 作 符 来 查看 指定 名 称 的 模式 。 





























在 这 个 例子 中 ， 使 用 AS 子 句 来 指定 一 个 模式 ， 如 果 所 有 的 数据 都 符合 这 个 模式 ，Pig 将 
使 用 已 分 配 的 类 型 。 然 后 我 们 使 用 DESCRIBE 操 作 符 来 查看 它们 的 模式 。 
































ee | 
A=LOAD'student'AS (name: chararray, age: int, gpa: float); 


B=FILTER A BY name matches'J.+'; 


C=GROUP B BY name; 


D=FOREACH B GENERATE COUNT (B.age) ; 


DESCRIBE A; 


A: {group, B: (name: chararray, age: int, gpa: float} 


DESCRIBE B; 


B: {group, B: (name: chararray, age: int, gpa: float} 


DESCRIBE C; 


C: {group, chararry, B: (name: chararray, age: int, gpa: 


float} 
DESCRIBE D; 
D: {long} 


| 


(3) Load/Store 函 数 

















PigStorage 的 作用 是 加 载 、 存 储 UTF-8 格 式 的 数据 ， 语 法 如 下 : 


l 
PigStorage (field_delimiter) 


= 


Field_delimiter 为 PigStorage 函 数 的 参数 ， 用 来 指定 函数 的 字段 定 界 符 。PigStorage 函 数 默 



































认 的 字段 定 界 符 为 : tab CW) ， 用 户 也 可 以 指定 其 他 字段 定 界 符 ， 但 定 界 符 要 在 单 引号 中 指 








明 。 





PigStorage 是 LOAD 和 STORE 操 作 符 默认 的 力 


据 类 型 。 























载 函 数 ， 而 且 能 够 处 理 简单 的 和 复杂 的 数 


PigStorage 对 有 结构 的 文本 进行 读 取 ， 并 采用 UTF-8 编 码 进行 存储 。 


在 Load 语 句 中 ，PigStorage 希 望 数 据 使 














| 





CW) ， 用 户 也 





J 以 指定 其 他 的 字符 。 


























i 











使 





在 Store 语 句 中 ，PigStorage 同 样 




















域 定 界 符 来 输出 数据 。 它 的 


同 ， 另 外 Store 语 句 的 记录 定 界 符 使 用 On) 。 


Load 或 Store 语 句 的 默认 的 域 定 界 符 





入 为 tab C) 。 


域 定 界 符 进行 格式 化 。 默 认 情 况 下 为 字符 


操作 方法 和 Load 语 句 相 




















户 可 以 使 











其 他 字符 作为 字段 定 








界 符 。 但 是 像 ^A 或 CrlLA 等 字符 应 使 用 UTF-16 编 码 格式 进行 编码 。 














Load 语 句 中 ，Pig 注 明 记 录 定 界 符 为 : MIT On 、 回 车 返回 符 ("\r') 或 CTRL-M 以 
及 组 合 的 CR+LF 字 符 Onn) [] 。 在 Store 语 句 中 ，Pig 使 用 换行 符 作为 记录 定 界 符 。 


























以 下 提供 一 个 示例 。 























在 这 个 例子 中 PigStorage 使 用 tab 作 为 域 定 界 符 ， 换 行 符 为 记录 定 界 符 ， 并 且 下 面 的 两 条 
语句 是 等 价 的 : 


Eee | 
A=LOAD'student'USING PigStorage ('\t') AS (name: chararray, 
age: int, gpa: float) ; 
A=LOAD'student'AS (name: chararray, age: int, gpa: float); 


= 一 4 

















在 这 个 例子 中 ，PigStorage 将 X 的 内 容 存储 到 文件 中 ， 并 且 使 用 星 号 作为 域 定 界 符 。 
STORE 函数 将 结果 存储 在 output 目 录 中 。 


OOOO OT 
STORE X INTO'output'USING PigStorage ('*'); 


二 一 

















(4) 文件 命令 : 


cd 




















它 的 作用 是 将 当前 目录 修改 为 其 他 目录 ， 语 法 如 下 : 


5 
cd[dir] 
3 





























此 处 的 cd 命令 和 Linux 的 cd 命令 非常 相似 ， 能 够 用 来 对 文件 系统 进行 定位 。 如 果 用 户 指定 
了 一 个 目录 ， 那 么 这 个 目录 将 成 为 用 户 当 前 的 工作 目录 ， 并 且 用 户 所 有 其 他 的 操作 都 将 相对 
于 这 个 目录 来 进行 。 如 果 没 有 指定 任何 目录 ， 用 户 的 根 目录 将 成 为 当前 的 工作 目录 。 







































































copyFromLocal 














它 的 作用 是 从 本 地 文件 系统 复制 文件 或 目录 到 HDFS 中 ， 语 法 如 下 : 


[= | 
copyFromLocal src path dst path 























其 中 ，src_path 为 本 地 系统 中 的 文件 或 目录 的 路 径 ，dst_path 为 HDFS 系 统 中 的 路 径 。 




















Copy FromLocal 命 令 让 用 户 能 够 从 本 地 文件 系统 中 复制 文件 或 目录 到 Hadoop 的 分 布 式 文 
件 系统 中 。 








ls 














它 的 作用 是 显示 一 个 目录 中 的 内 容 ， 语 法 如 下 : 


5 
ls[path] 
ee | 














此 处 的 ls 命令 和 Linux 中 的 Is 命 令 相 似 ， 如 果 指 定 一 个 目录 ， 这 个 命令 将 列 出 被 指定 目录 
中 的 内 容 。 如 果 不 指定 参数 ， 那 么 系统 将 列 出 当前 工作 目录 中 的 内 容 。 














rm 























它 的 作用 是 移 除 一 个 或 更 多 的 文件 或 目录 ， 语 法 如 下 : 


二 一 
rm path[path...... ] 
二 

















此 处 的 rm 命令 和 Linux 中 的 rm 命令 相似 ， 让 用 户 能 够 移 除 一 个 或 多 个 文件 或 目录 。 











[1] 一 定 不 要 将 这 些 字 符 用 作 域 定 界 符 。 














14.4 用 户 定义 函数 





























大 家 可 以 使 用 用 户 定义 函数 (User Defined Functions, UDFs) 来 编写 特定 的 处 理 函 数 ， 
这 大 大 地 增强 了 Pig Latin 语 言 的 功能 ， 用 户 可 以 方便 地 对 其 功能 进行 扩充 和 完善 。Pig 为 用 户 
定义 函数 提供 了 大 量 的 支持 ，UDFs 几 乎 可 以 作为 Pig 所 有 操作 符 的 一 部 分 来 使 
























































下 面 我 们 将 通过 一 个 实例 来 帮助 大 家 学 习 如 何 编写 UDFs， 以 及 如 何 让 Pig 使 用 大 家 编写 

















这 里 我 们 给 出 一 个 学 生 表 〈 学 号 ， 姓 名 ， 性 别 ， 年 龄 ， 所 在 系 ) ， 其 中 含有 如 下 几 条 记 








201000101: 李 勇 : Boy: 20: 计算 机 软件 与 理论 





201000102: 王 丽 : Girl: 19: 计算 机 软件 与 理论 

















201000103: 刘 花 : Girl: 18: 计算 机 应 用 技术 





201000104: Æ}: Boy: 19: 计算 机 系统 结构 


201000105: 吴 达 : Boy: 19: 计算 机 系统 结构 














201000106: EJ: Boy: 19: 计算 机 系统 结构 











它们 所 对 应 的 数据 类 型 如 下 所 示 : 


Eee 
Student (Sno: chararray, Sname: chararray, Ssex: chararray, 
Sage: int, Sdept: chararray) 


5 
这 里 字段 与 字段 之 间 通 过 冒号 (半角 英文 标点 隔 开 ， 下 面 我 们 将 编写 一 个 函数 ， 能 够 
将 所 有 的 小 写字 母 转换 成 对 应 的 大 写字 母 。 














14.4.1 编写 用 户 定 义 函 数 


下 面 是 我 们 编写 的 UDFs 代 码 ， 如 代码 清单 14-1 所 示 。 


代码 清单 14-1 





package cn.edu.ruc.cloudcomputing.book.chapter14; 


2 import java.io.10Exception; 


3 import org.apache.pig.£valFunc; 


import org.apache.pig.data.Tuple; 


7 public class UPPER extends EvalFunc <String> 


{ 


9 public String exec(Tuple input) throws IOException { 
10 if {input == null || input.size{) 

11 return null; 

12 try{ 

13 String str = (String) input.get (0); 

14 return str.toUpperCase () ; 

15 }catch{Exception e) { 

16 throw WrappedIO&xception.wrap("Caught exception processing input row 
17 } 

18 } 

19} 


代码 的 第 1 行 表 明 这 个 函数 是 myudfs 包 的 一 部 分 。 这 个 UDF 类 是 EvalFunc 类 
EvalFunc 是 所 有 eval 函 数 的 基 类 。 在 这 个 例子 中 ， 这 个 类 使 
进行 参数 化 。 现 在 我 们 需要 去 实现 EvalFunc 类 
集合 ， 它 们 按照 Pig 脚 本 加 载 的 顺序 依次 被 调 





1 
2 
3 
4 
5 import org.apache.pig.impl.util.WrappedIOException; 
6 
7 
8 












































我 们 的 例子 中 ， 它 是 








个 与 学 4 


E 的 性 别 相 一 致 








JBE 























*, eb; 


AKA, 

值 类 型 为 Java String 的 参数 
的 exec 函 数 。 在 这 里 ， 函 数 的 输入 是 一 个 tuple 
。 每 当 输 入 一 个 tuple, UDF 将 被 调 


次 。 在 


我 们 首先 需要 做 的 是 处 理 无 效 的 数据 。 这 依赖 于 数据 的 格式 ， 如 果 数 据 为 字 节 数组 ， 那 


就 意味 着 它 不 需要 被 转化 为 其 人 








也 的 数据 类 型 ， 如 果 输 入 的 数据 为 


其 他 类 型 ， 那 么 就 需要 将 数 


据 转 换 成 适当 的 数据 类 型 ， 如 果 输 入 数据 的 格式 不 能 被 系统 识别 或 转换 ，NULL 值 将 被 返 
回 。 这 就 是 我 们 例子 中 的 第 


个 帮助 类 ， 帮 助 我 们 





ERK 


6 行 会 抛 出 一 个 错误 的 原 





的 异常 转换 为 IO 异常 。 














。 在 这 里 ，WrappedIOException 是 一 








另外 ， 注 意 第 10 一 11 行 的 作用 为 检查 输入 数据 为 nul! 或 室 。 如 果 为 nul 或 空 ， 系 统 将 返回 











null。 








很 容易 看 出 ， 函 数 的 实现 部 分 在 第 13 一 14 行 ， 它 们 使 用 Java 函 数 将 接收 的 输入 转换 为 相 
应 的 大 写 。 



































如 果 要 使 用 这 个 函数 ， 它 需要 被 编译 并 且 包 含 在 一 个 JAR 中 。 用 户 需 要 建立 pigjar 来 编 

译 用 户 的 UDF。pigjar 文 件 需要 用 户 自行 下 载 安 装 。 可 以 使 用 下 面 的 命令 集 从 SVN 库 中 检验 

代码 并 且 创建 pig.jar 文 件 : 

一 
svn co http: //svn.apache.org/repos/asf/pig/trunk 


cd trunk 
ant 


二 一 
















































































注意 在 使 用 svn 和 ant 操 作 之 前 ， 要 确保 系统 已 经 安装 了 SVN 和 ant 1] 。 


























上 述 操作 完成 之 后 ， 用 户 可 以 在 自己 当前 的 工作 目录 中 看 到 pig.jar 文 件 ( 它 位 于 trunk 目 
KF). 














当 pigjar 文 件 创建 完成 之 后 ， 我 们 首先 需要 对 函数 进行 编译 ， 然 后 再 创建 一 个 包含 这 个 
函数 的 JAR 文 件 。 具 体操 作 命令 如 下 : 


5 
cd myudfs 
javac-cp pig.jar UPPER.java 
cd... 
jar-cf myudfs.jar myudfs 
二 一 


[1] 这 部 分 知识 已 经 超出 了 本 书 的 内 容 ， 具 体 的 操作 大 家 可 以 参考 其 他 相关 书籍 。 




















14.4.2 ”使 用 用 户 定义 函数 






































下 面 是 我 们 所 编写 的 pig 脚 本 ， 它 使 用 我 们 所 编写 的 用 户 定义 函数 对 上 面 给 出 的 学 生 表 进 
行 了 相应 的 操作 。 
| 


1--myscript.pig 

2 REGISTER myudfs.jar; 

3 A=LOAD'Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararray, Ssex 

: chararray, Sage: int, Sdept: chararray) ; 

4 B=FOREACH A GENERATE myudfs.UPPER (Ssex) ; 

5 DUMP B; 


oOo 
我 们 使 用 下 面 的 命令 执行 此 脚本 文件 。 其 中 ， 使 用 “-x mapreduce” 指 定 函 数 运行 的 模 
式 ， 如 果 用 户 只 是 为 了 对 函数 进行 测试 ， 建 议 用 户 在 local 模 式 下 运行 。 因 为 对 于 小 文件 来 
说 ，MapReduce 模 式 的 准备 时 间 显 得 过 长 ， 有 时 候 甚至 让 用 户 觉得 MapReduce 模 式 下 文件 的 
运行 效率 比 local 模 式 下 还 要 低 。 为 了 验证 函数 的 通用 性 ， 这 里 我 们 使 用 MapReduce 模 式 。 
一 


java-cp pig.jar org.apache.pig.Main-x mapreduce myscript.pig 


一 

这 个 脚本 的 第 2 行 提供 了 JAR 文 件 的 位 置 ， 这 个 JAR 文 件 中 包含 我 们 刚刚 编写 的 用 户 定义 
PRB CER: jar 文 件 上 没有 引号 ) 。 为 了 找到 JAR 文 件 的 位 置 ，Pig 首 先 检查 classpath 环 境 变 
量 。 如 果 在 classpath 环 境 变 量 中 不 能 找到 JAR 文 件 ，Pig 将 假定 地 址 为 绝对 地 址 或 一 个 相对 于 
Pig 被 调用 位 置 的 地 址 。 如 果 JAR 文 件 仍旧 不 能 被 发 现 ， 系 统 将 返回 一 个 错误 。 

























































































































































































多 个 用 户 定义 函数 可 以 被 用 在 相同 的 脚本 中 。 如 果 完 全 相同 且 合格 的 函数 出 现在 多 个 
JAR 中 ， 那 么 根据 Java 语 义 ， 第 一 个 出 现 的 函数 将 被 一 直 使 















































UDF 的 名 称 和 包 名 必须 要 完全 合格 ， 否 则 系统 将 返回 一 个 错误 : 
pM 


java.io.IOException: Cannot instantiate: UPPER. 


二 一 


另外 ， 函 数 的 名 称 区 分 大 小 写 〈 比 如 : UPPER 和 upper 是 不 同 的) ，UDF 也 可 以 包含 一 
个 或 更 多 的 参数 。 











当 操 作 完成 之 后 ， 我 们 可 以 在 终端 上 看 到 Pig 输 出 的 正确 结果 : 




















户 定义 函数 还 包括 很 多 其 他 的 内 容 ， 限 于 篇 幅 ， 我 们 在 这 里 只 做 简单 介绍 。 








14.5 ”Zebra 简 介 























Zebra 是 提供 列 式 数 据 读 写 的 路 径 访问 库 。 它 相当 于 用 户 应 用 程序 和 Hadoop 分 布 式 文件 
系统 HDFS) 之 间 的 抽象 层 。 用 户 的 数据 可 以 通过 Zebra 的 TableStore 类 加 载 到 HDFS 中 。 目 
前 ，Zebra 提 供 了 对 Pig、MapReduce 以 及 Streaming 作 业 的 支持 ， 其 关系 如 图 14-3 所 示 。 












































图 14-3 Zebra 与 相关 工具 的 关系 


14.5.1 ”Zebra 的 安装 


Zebra 的 安装 依赖 于 以 下 文件 : 
Pig， 要 求 版 本 在 0.7.0 以 上 ; 
Hadoop， 要 求 版 本 在 0.20.2 以 上 ; 
JDK， 要 求 版 本 在 1.6 以 上 ; 


Ant， 要 求 版 本 在 1.7.1 以 上 。 








目前 ， 在 Pig-0.10.0 版 本 中 ， 已 经 集成 了 Zebra 文 件 ， 位 于 $PIG_HOME/contrib/zebra 目 录 
下 。 另 外 ， 我 们 也 可 以 使 用 svn 从 Pig 版 本 库 中 直接 下 载 : 




















本 一 


svn co http: //svn.apache.org/viewvc/pig/trunk/contrib/zebra/ 
二 














这 样 ， 用 户 可 以 在 当前 目录 下 发 现下 载 完 成 的 文件 。 














无 论 是 在 Pig-0.10.0 安 装 包 还 是 直接 从 SVN 库 中 下 载 的 Zebra， 都 是 没有 编译 的 源 文件 ， 
我 们 需要 自行 编译 。 编 译 需要 分 为 如 下 两 个 步 又， 如 下 所 示 ; 


(1) 编译 Pig 


wor eee 
cd$PIG_HOME 
ant jar 

FE=== | 


该 步 又 首先 进入 Pig 的 根 目录 ， 然 后 运行 ant 命 令 进行 编译 。 











注意 ”该 步 又 是 为 了 生成 Pig 的 JAR 文 件 ， 一 般 直接 下 载 的 pig-0.10.0 安 装 包 里 已 经 编译 
因此 可 以 省 略 。 但 是 从 Pig 的 SVN 库 中 下 载 的 Pig 源 文件 往往 没有 编译 ， 故 此 需要 该 步 














(2) 编译 Zebra 


| 
cd./contrib/zebra 
ant jar 
3 


当 上 述 两 步 完 成 后 ， 将 会 在 $PIG_HOME/contrib/zebra 目 录 下 生成 Zebra 的 jar 文 件 。 

















14.5.2 ”Zebra 的 使 用 简介 





从 图 14-3 中 我 们 可 以 看 出 ，Zebra 支 持 Pig、MapReduce 以 及 Streaming 三 种 方式 。 在 本 节 
中 ， 我 们 主要 介绍 如 何 使 用 Pig 来 调用 Zebra 进 行 数据 的 读 写 ， 其 他 相关 部 分 大 家 可 以 从 Zebra 
官方 网 站 [1] 上 查阅 。 















































Zebra 的 读 写 需 要 首先 声明 存储 模式 。Zebra 提 供 了 与 Pig 之 间 模式 的 自动 转换 ， 因 此 我 们 
在 使 用 Pig 对 Zebra 进 行 操作 的 时 候 不 需要 指定 模式 。 















































面 介绍 如 何 使 用 Zebra 提 供 的 类 加 载 数据 。 在 加 载 数 据 时 需要 使 用 Zebra 的 TableLoader 
类 ， 该 类 包含 两 个 构造 函数 ， 如 下 所 示 : 




















| 
TableLoader () 
TableLoader (String projectionStr) 


| 








如 果 使 用 "TableLoader 〈)“ 构 造 函 数 ，Zebra 将 自动 识别 数据 的 列 ， 并 为 其 指定 模式 : 









































或 者 可 以 使 用 第 二 种 构造 函数 ， 其 中 ， 参 数 “projectionStr" 指 定 的 是 投影 字符 串 ， 用 “，?” 分 割 
被 投影 的 字段 。 








下 面 操作 将 从 表 “student* 中 加 载 数 据 : 





| 
register$LOCATION/zebra-$version.jar; 
A=LOAD'studenttab'USING 
org.apache.hadoop.zebra.pig.TableLoader () ; 


一 



































可 以 看 到 与 使 用 UDFs 类 似 ， 在 使 用 之 前 首先 需要 使 用 register 语 句 将 相应 的 JAR 包 注册 。 




















我 们 可 以 使 用 DESCRIBE 语 句 来 查看 表 的 模式 : 











二 一 
DESCRIBE A; 
A: {name: chararray, age: int, gpa: float} 
和 











另外 ， 可 以 在 加 载 数据 的 时 候 利用 Zebra 将 其 进行 排序 : 














A=LOAD'studentsortedtab'USING 
org.apache.hadoop.zebra.pig.TableLoader ('', 'sorted') ; 
—_{__—_SSSS____SSS________S_==A 


如 上 所 示 ， 将 TableLoader 的 第 一 个 参数 设置 为 空 代 表 加 载 所 有 的 列 。 有 序 的 表 能 够 加 快 
Merge Join 的 操作 。 











限于 篇 幅 ， 这 里 我 们 介绍 了 简单 的 Zebra 和 了 Pig 的 交互 操作 ， 其 他 更 多 内 容 大 家 可 以 查看 
Zebra 的 JAVA API。 


[1] http: //pig.apache.org/docs/r0.9.2/zebra_overview.html。 


14.6 ”Pig 实例 


下 面 我 们 将 结合 第 14.2.3 节 所 介绍 的 Pig 运 行 模式 给 出 相应 的 例子 。 这 里 我 们 给 出 一 个 学 
ER CES, WEA, Hen, ER, PER) ， 其 中 含有 如 下 几 条 记录 : 





























5 
201000101: : B: 20: 计算 机 软件 与 理论 
201000102: 王 丽 : 女 : 19: 计算 机 软件 与 理论 
201000103: : 女 : 18: 计算 机 应 用 技术 
201000104: B: 19: Te 
201000105: B: 19: 计算 机 系 
男 


系统 结构 
201000106: JH: B: 19: 计算 机 系统 结构 
它们 所 对 应 的 数据 类 型 如 下 所 示 : 


ee | 
Student (Sno: chararray, Sname: chararray, Ssex: chararray, 
Sage: int, Sdept: chararray) 


这 里 字段 与 字段 之 间 通 过 冒号 〈 半 角 英 文 标点 ) 隔 开 ， 下 面 我 们 将 在 不 同 的 运行 方式 下 
取出 各 个 学 生 的 姓名 和 年 龄 两 个 字段 。 








14.6.1 Local 模式 


这 一 节 我 们 将 结合 上 面 给 出 的 实例 ， 具 体 讲 解 如 何在 Pig 的 Local 模 式 下 对 数据 进行 操 
作 。 同 时 ， 我 们 对 Pig 在 Local 模 式 下 的 三 种 运行 方式 都 进行 详细 的 介绍 。 





1.Grunt Shell 





通过 14.3.3 一 节 中 对 Pig 的 数据 模式 的 介绍 ， 我 们 可 以 了 解 到 ， 记 录 是 域 的 有 序 集 合 。 因 
此 ， 在 我 们 对 数据 进行 操作 之 前 ， 需 要 按照 文件 中 数据 相应 的 字段 和 类 型 来 加 载 数据 。 通 过 
下 面 的 这 一 条 命令 ， 我 们 可 以 把 前 面 给 出 的 例子 按照 对 应 字段 和 对 应 数据 类 型 进行 加 载 : 




















3 
grunt >>A=load'/path/Student'using PigStorage (': ') as (Sno: 
chararray, Sname: chararray, 
Ssex: chararray, Sage: int, Sdept: chararray) ; 


TTT | 


通过 Foreach 命 令 ， 从 A 中 选 出 Student 相 应 的 字段 ， 并 存储 到 B 中 : 











一 
grunt>>B=foreach A generate Sname, Sage; 
SSS 


通过 dump 命 令 ， 将 B 中 的 内 容 输出 到 屏幕 上 : 





一 
grunt>>dump B; 
二 一 


下 面 一 步 将 B 的 内 容 输出 到 本 地 文件 中 : 





| 
grunt>>store B into'/path/grunt.out'; 
和 


现在 我 们 可 以 打开 grunt.out 文 件 来 查看 操作 的 结果 ， 如 下 所 示 : 





a Wo ih HH A 
PERREN 


2. 脚 本 文件 


脚本 文件 实质 上 是 pig 命 令 的 批 处 理 文件 。 


我 们 给 出 的 script.pig 文 件 包 含 以 下 内 容 : 


[= | 

A=load'/path/Student'using PigStorage (': ') as (Sno: 
chararray, Sname: chararray, 

Ssex: chararray, Sage: int, Sdept: chararray) ; 

B=foreach A generate Sname, Sage; 

dump B; 

store B into'/path/tst.out'; 
一 











可 以 看 出 ， 这 个 文件 其 实 就 是 上 面 Grunt shell 下 命令 的 一 个 集合 。 


























我 们 通过 下 面 的 命令 调用 这 个 脚本 文件 ， 可 以 看 到 ， 生 成 的 结果 是 完全 相同 的 。 





3. 嵌 入 式 程序 





























户 可 以 方便 地 使 用 Java 语 言 来 书写 相应 的 Pig 脚 本 ， 如 代码 清单 14-2 所 示 。 

















代码 清单 14-2 ”Local 模 式 下 用 Java 编 写 的 Pig 脚 本 











ee | 

package cn.edu.ruc.cloudcomputing.book.chapter14; 

import java.io.IOException; 

import org.apache.pig.PigServer; 

public class tst_local{ 

public static void main (String[]args) { 

try{ 

PigServer pigServer=new PigServer ("local") ; 

runIdQuery (pigServer, "/path/Student") ; // 调 用 函数 

} 

catch (Exception e) {} 

} 

public static void runIdQuery (PigServer pigServer, String 
inputFile) throws 

IOException{ 

pigServer.registerQuery ("A=load'"+inputFilet+"'using 
PigStorage (': ') as 

(Sno: chararray, Sname: chararray, Ssex: chararray, Sage: int, 
Sdept: chararray) ; "); 

pigServer.registerQuery ("B=foreach A generate Sname, 
Sage: "); 

pigServer.store ("B", "/path/tstJavaLocal.out") ; 

} 




















} 
= 





下 面 我 们 将 通过 14.2.3 节 中 所 介绍 的 在 嵌入 式 方式 下 运行 pig 脚 本 的 命令 来 对 此 文件 进行 




















首先 ， 使 用 下 面 命令 对 此 Java 源 文件 进行 编译 : 





f= 一 
$javac-cp pig-*.*.*-core.jar local.java 
SSS—S=S=—S=—S=—S=—_S=—=S=—S=S=S==_SSS=S=—_=S=_=S=—_=S=S=—S=SSSS—SSSSsa 


当 编译 完成 后 ， 通 过 下 面 命令 运行 ".class" 类 文件 : 


pM 
$java-cp pig-*.*.*-core.jar: .local 
TTT | 





然后 打开 生成 的 结果 文件 “tstavaLocalout"， 我 们 会 发 现 它 和 前 面 两 种 方式 生成 的 结果 
是 完全 相同 的 。 





14.6.2 ”MapReduce 模 式 


这 一 节 我 们 将 结合 上 面 给 出 的 实例 具体 讲解 如 何在 Pig 的 MapReduce 模 式 下 对 数据 进行 操 
作 。 同 时 ， 我 们 同样 对 Pig 在 MapReduce 模 式 下 的 三 种 运行 方式 进行 详细 介绍 。 





1.Grunt Shell 

















MapReduce 模 式 下 ，Pig 的 使 用 其 实 是 Pig Local 模 式 和 Hadoop 操 作 的 结合 。 因 为 要 运行 
MapReduce 程 序 我 们 需要 在 Hadoop 的 HDFS 文 件 系统 下 对 文件 进行 操作 ， 但 是 在 Linux 系 统 下 
我 们 是 看 不 到 HDFS 文 件 系统 下 的 文件 的 ， 所 以 就 不 能 使 用 常规 的 操作 来 “搬运 "文件 。 这 
里 ， 我 们 就 需要 使 用 与 HDFS 相 关 的 命令 在 HDFS 文 件 系统 下 执行 Pig 的 命令 。 













































































首先 ， 从 终端 进入 Pig 的 MapReduce 横 式 ， 然 后 使 用 copyFromLocal 命 令 将 文件 从 本 地 复 
制 到 HDFS 文 件 系统 中 ， 如 下 所 示 : 
一 


grunt>>copyFromLocal srcpath/Student dstpath; 


| 

通过 ls 命令 ， 我 们 可 以 查看 是 否 成 功 将 文件 复制 到 相应 的 HDFS 文 件 系统 中 了 。 操 作 完 成 
后 ， 我 们 就 可 以 像 在 Local 模 式 下 一 样 对 文件 进行 操作 了 。 这 里 ，Pig 会 自动 地 将 我 们 的 命令 
分 散 到 分 布 式 系统 中 去 执行 ， 然 后 返回 给 用 户 。 
































2. 脚 本 文件 
参考 Local 模 式 下 脚本 文件 的 执行 。 


3. 嵌 入 式 程序 





参考 Local 模 式 下 脚本 文件 的 执行 ， 这 里 我 们 给 出 MapReduce 模 式 下 程序 的 代码 ， 可 以 看 
到 ， 除 了 指定 相应 的 模式 之 外 ，MapReduce 模 式 下 程序 代码 和 Local 模 式 没有 什么 不 同 。 这 是 
因为 ， 所 有 的 分 布 式 操作 将 由 Pi 系统 自动 执行 ， 而 不 需要 用 户 在 MapReduce 的 编程 框架 下 设 



































计 程 序 ， 这 就 大 大 地 减轻 了 用 户 的 负担 ， 也 使 得 用 户 能 更 容易 掌握 Pig 嵌 入 式 程序 ， 见 代码 清 
单 14-3。 




















代码 清单 14-3 MapReduce 模 式 下 的 Pig 脚 本 


Re 

package cn.edu.ruc.cloudcomputing.book.chapter14; 

import java.io.IOException; 

import org.apache.pig.PigServer; 

public class tst_mapreduce{ 

public static void main (String[]Jargs) { 

try{ 

PigServer pigServer=new PigServer ("mapreduce") ; //MapReduce 模 
at 

runIdQuery (pigServer, "/path/Student") ; // 调 用 函数 

} 

catch (Exception e) {} 

} 

public static void runIdQuery (PigServer pigServer, String 
inputFile) throws 

IOException{ 

pigServer.registerQuery ("A=load'"+inputFilet+"'using 
PigStorage (': ') as 

(Sno: chararray, Sname: chararray, Ssex: chararray, Sage: int, 
Sdept: chararray) ; "); 

pigServer.registerQuery ("B=foreach A generate Sname, 
Sage: "); 

pigServer.store ("B", "/path/tstJavaMapReduce.out") ; 

} 

} 


一 
































14.7 Pig 进 阶 














本 节 将 继续 介绍 Pig 在 实际 中 的 应 用 ， 为 了 体现 Pig 系 统 的 特点 ， 本 节 中 的 所 有 操作 都 将 
在 Hadoop MapReduce 模 式 下 进行 。 另 外 ， 我 们 选取 了 一 组 很 有 特点 的 例子 进行 数据 分 析 ， 
相信 这 对 大 家 的 理解 一 定 很 有 帮助 。 




















为 了 让 大 家 能 够 更 好 地 理解 下 面 的 操作 ， 我 们 使 用 Grunt Shell 方 式 进行 数据 分 析 ， 这 样 
能 够 让 大 家 更 加 清楚 地 理解 Pig 的 执行 过 程 。 











14.7.1 数据 实例 


结合 14.6 节 中 的 数据 ， 我 们 再 给 出 另外 两 个 数据 。 








第 一 组 数据 是 14.6 节 中 的 学 生 表 所 对 应 的 课程 表 〈 课 程 号 、 课 程 名 、 先 修 课程 号 、 学 
分 ) ， 它 包含 如 下 几 条 记录 ; 


一 
01, English, 4 
02, Data Structure, 05, 2 
03, DataBase, 02, 2 
04, DB Design, 03, 3 
05, C Language, 3 
06, Principles Of Network, 07, 3 
07, OS, 05, 3 


| 
它们 所 对 应 的 数据 类 型 如 下 所 示 : 
OOO 


Course (Cno: chararray, Cname: chararray, Cpno: chararray, 
Ccredit: int) 


一 | 
另外 一 组 数据 为 学 生 表 和 课程 表 所 对 应 的 选课 表 (学 号 、 课 程 号 、 成 绩 ) ， 它 包含 如 下 

几 条 记录 : 

人 

















201000101，01，92 
201000101，03，84 
201000102，01，90 
201000102，02，94 
201000102，03，82 
201000103，01，72 
201000103，02，90 
201000104，03，75 


3 





它们 所 对 应 的 数据 类 型 如 下 所 示 : 


和 
SC (Sno: chararray, Cno: chararray, Grade: int) 
ee 


14.7.2 Pig 数据 分 析 


下 面 我 们 将 对 学 生 表 、 课 程 表 和 选课 表 进 行 数 据 分 析 操 作 。 这 一 小 节 将 分 三 个 部 分 ， 分 
别 计算 学 生 的 平均 成 绩 、 找 出 有 不 及 格 成 绩 的 学 生 和 找 出 修了 先 修 课 为 "C Language” fi) 
Æ. 在 语法 上 ，Pig Latin 虽 然 没 有 关系 数据 库 中 的 关系 操作 语言 强大 ， 但 是 因为 Pig 系 统 架设 
在 Hadoop 的 云 平 台 之 上 ， 所 以 在 处 理 大 规模 数据 集 的 时 候 ，Pig 的 效率 却 非常 高 。 
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1. 计 算 每 个 学 生 的 平均 成 绩 

















这 里 要 求 计算 出 每 个 学 生 的 平均 成 绩 ， 并 且 输 出 每 个 学 生 的 姓名 及 其 平均 成 绩 。 


























我 们 先 对 数据 进行 分 析 。 很 容易 看 出 ， 我 们 需要 对 学 生 表 和 选课 表 进 行 操作 。 首 先 ， 需 
要 对 学 生 表 和 选课 表 基 于 学 号 字段 进行 连接 ;然后 ， 基 于 学 号 对 学 生 数据 进行 操作 ， 这 时 需 
要 对 每 个 学 生 所 有 的 课程 成 绩 分 别 求 和 ， 并 除 以 课程 总 数 ， 最 后 ， 按 格式 输出 结果 。 














对 于 传统 的 关系 型 数据 库 的 关系 操作 语言 来 说 ， 为 了 实现 这 个 目标 ， 我 们 需要 AVG 运 算 
和 GROUP 运 算 同 时 使 用 ， 十 分 方便 。 下 面 ， 我 们 就 Pig Latin 语 言 给 出 相应 的 操作 。 

















1 从 源 数据 文件 学 生 表 和 选课 表 中 读 取 数据 


2 ”对 学 生 表 和 选课 表 基 于 学 号 字段 进行 连接 操作 


3 ”基于 学 号 对 连接 生成 的 表 进行 分 组 操作 


4 计算 每 个 学 生 的 平均 成 绩 











上 面 是 对 操作 的 描述 ， 接 下 来 需要 对 上 述 描述 用 Pig Latin 语 言 来 实现 。 











(1) 读 取 数据 





MapReduce 在 Hadoop 的 HDFS 文 件 系统 中 对 数据 进行 操作 ， 所 以 需要 复制 要 操作 的 数据 
到 HDFS 中 : 





ee 
copyFromLocal Student Student; 
copyFromLocal SC SC 


OC 














可 以 使 用 Hadoop 的 ls 命令 查看 数据 是 否 复制 成 功 ， 确 认 后 再 读 取 数据 : 








人 

A=load'Tmp/Student'using PigStorage (': ') as (Sno: chararray, 
Sname: chararray, Ss 

ex: chararray, Sage: int, Sdept: chararray) ; 
B=load'Tmp/SC'using PigStorage (', ') 

as (Sno: chararray, Cno: chararray, Grade: int) ; 
《| 


(2) 连接 操作 














使 用 JOIN 关键 字 对 A、B 两 组 数据 基于 Sno 字 段 进行 连接 操作 。JOIN 关 键 字 的 语法 如 下 : 








一 
alias=JOIN alias BY{expression|' ('expression[, 
expression....]') '} (, alias BY 
{expression|' ('expression[, expression. 
[USING'replicated'|'skewed' 
|'merge'] [PARALLEL n]; 


二 一 





下 面 是 连接 操作 的 命令 : 


== = 二 == = 一 = 一 
D=Join A By Sno, B By Sno; 
二 一 











这 里 我 们 可 以 使 用 DUMP 关 键 字 来 查看 D 中 存储 的 数据 ， 如 图 14-4 所 示 。 

















16-84 63:48:39,709 [sain] INFO 


{2010 
{2010 
{201 

{281 
(28168618 
1281 

{281 
grus 


G) 分 组 操作 


对 学 生 表 和 选课 表 进行 连接 操作 后 的 结果 





在 进行 分 组 操作 之 前 ， 我 们 先 提取 必要 的 数据 ， 这 样 不 但 减少 了 需要 处 理 的 数据 量 ， 而 
且 让 我 们 的 操作 更 加 简单 。 接 着 ， 我 们 基于 学 号 字段 对 连接 操作 后 的 数据 进行 分 组 ， 如 下 所 


7N: 


SOOO aM M MMM MMMM | 


E=Foreach D generate A: Sno, 
Sname) ; 


F=Cogroup E By (Sno, 
一 





我 们 再 使 
的 模式 ， 如 医 














Snamey 

















DUMP 关 键 字 查看 
4-6 所 示 。 





{1201088101 
» (1261088162 
È), {12010900163 
{1261080164 





FF 中 的 数据 ， 如 














Grade; 








14-5 所 示 。 接 着 














DESCRIBE 分 析 F 





ibe F 


图 14-5 F 中 的 数据 











图 14-6 下 的 模式 





(4) 计算 学 生 的 平均 成 绩 





























我 们 使 用 SUM 关 键 字 对 学 生成 绩 进行 求 和 ， 使 用 COUNT 关 键 字 来 计算 课程 的 总 数 : 




















| 
G=Foreach F Generate group.Sname, 
(SUM (E.Grade) /COUNT (ŒE) ) ; 


| 
下 面 ， 我 们 查看 一 下 最 终 的 结果 ， 如 图 14-7 所 示 : 
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图 14-7 学 生平 均 成 绩 





因为 Grade 字段 的 数据 类 型 为 int， 所 以 这 里 计算 出 的 结果 均 为 向 下 取 整 后 的 值 。 如 果 想 
要 得 到 更 为 准确 的 数据 ， 大 家 可 以 将 Grade 字段 的 数据 类 型 设 为 Long 或 Float。 
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找 出 有 不 及 格 成 绩 的 学 生 


这 部 分 要 求 找 出 有 不 及 格 成 绩 的 学 生 ， 并 且 输 出 学 生 的 姓名 和 不 及 格 的 课程 和 成 绩 。 












































现在 对 问题 进行 分 析 。 我 们 需要 使 用 学 生 表 来 获取 学 生 的 姓名 ， 使 用 课程 表 来 获取 学 生 
的 成 绩 和 对 应 成 绩 的 课程 。 






































首先 ， 我 们 还 是 需要 读 取 源 数据 ， 然 后 使 用 连接 字段 将 数据 连接 在 一 起 ， 接 着 使 
FILTER 关 键 字 过 滤 出 我 们 需要 的 数据 ， 最 后 提取 需要 的 字段 将 数据 输出 。 


























这 里 我 们 不 再 像 上 面 那样 一 步 步 地 对 数据 进行 分 析 了 ， 下 面 给 出 Pig Latin 操 作 语句 : 


| 
A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: 


chararray, Sname: chararra 
y, Ssex: chararray, Sage: int, Sdept: chararray) ; -- 读 取 学 生 表 
B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 
Cno: chararray, Grade 


: int) ; -- 读 取 选 课表 





C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: 
chararray, Cname: chararray, 
Cpno: chararray, Ccredit: int) ; -- 读 取 课 程 表 


D=Filter B By Grade<60; -- 提 前 对 B 进 行 分 析 ， 过 滤 出 需要 的 结果 ， 减 少 操作 
的 数据 量 

E=Join D By Sno, A By Sno; -- 连 接 操作 

F=Join E By Cno, C By Cno; -- 连 接 操作 

G=Foreach F Generate Sname, Cname, Grade; -- 输 出 结果 
| 

















最 后 我 们 使 用 DUMP 命 令 查 看 操作 的 结果 ， 如 图 14-8 所 示 : 
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图 14-8 不 及 格 成 绩 的 学 生 





3. 找 出 修了 先 修 课 为 “C Language” IJE 











这 里 要 求 找 出 修了 先 修 课 为 “C Language” 的 学 生 ， 并 且 输 出 学 生 的 姓名 。 








现在 ， 我 们 先 对 问题 进行 分 析 ， 从 课程 表 的 数据 结构 可 以 看 出 : 我 们 需要 找 出 “C 
Language” 这 门 课 的 课程 号 ， 然 后 找 对 应 “Cpno”( 此 课程 号 的 课程 》， 最 后 找 出 修了 此 门 课 
程 的 学 生 ， 并 输出 学 生 的 姓名 。 



































Pig Latin 语 言 支持 嵌 套 的 操作 ， 所 以 在 这 一 部 分 ， 我 们 使 用 嵌 套 语句 来 对 数据 进行 操 
作 ， 这 样 能 够 使 Pig Latin 语 言 的 书写 更 加 简便 ， 更 加 有 便于 理解 。 因 为 嵌 套 的 语句 能 够 使 程 
序 的 执行 更 加 有 层次 感 ， 使 我 们 理解 起 来 一 目 了 然 。 

















为 了 让 大 家 便于 理解 ， 我 们 给 出 单 步 的 操作 ; 


| 
A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: 
chararray, Sname: chararra 


y, Ssex: chararray, Sage: int, Sdept: chararray) ; 


B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 
Cno: chararray, Grade: int); 
C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: 


chararray, Cname: chararray, 

Cpno: chararray, Ccredit: int); 

D=load'/pigTmp/Course'using PigStorage (', ') as (Cno: 
chararray, Cname: chararray, 

Cpno: chararray, Ccredit: int); 

E=Join C By Cpno, D By Cno; -- 连 接 数据 

F=Filter E By D: Cname=='C Language'; -- 过 滤 出 先 修 课 名 为 c 
Language 的 记录 

G=Foreach F Generate C: Cno; -- 找 出 先 修 课 为 Cc Language 课 程 的 课程 号 

H=Join G By Cno, B By Cno; -- 选 课表 和 C Language 课 程 的 课程 号 做 连接 操 





作 

I=Join H By Sno, A By Sno; -- 选 课表 与 目标 课程 号 连接 结果 与 学 生 表 作 连 接 
操作 

J=Foreach I Generate Sname-- 输 出 结果 
Eee 


| 


可 以 明显 地 看 出 ， 上 面 的 操作 十 分 地 繁琐 ， 下 面 我 们 将 上 面 的 语句 柑 套 起 来 。 




















因为 等 号 左面 和 右面 的 操作 是 完全 等 价 的， 也 就 是 说 ， 可 以 将 模式 名 用 对 应 的 表达 式 蔡 
换 。 比 如 对 于 下 面 的 句子 : 


























Eee 
E=Join C By Cpno, D By Cno; -- 连 接 数据 k 
F=Filter E By D: Cname=='C Language'; -- 过 滤 出 先 修 课 名 为 C 
Language 的 记录 
Eee 


我 们 可 以 这 样 写 : 


ý 
F=Filter (Join C By Cpno, D By Cno; ) By D: Cname=='C 

Language'; -- 过 滤 出 先 修 课 名 为 Cc Language 的 记录 

Eee 


所 以 ， 这 一 问题 可 以 按 下 面 的 Pig Latin 语 句 来 进行 操作 : 


sn 
A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: 
chararray, Sname: chararra 
y, Ssex: chararray, Sage: int, Sdept: chararray) ; 
B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 


Cno: chararray, Grade: int) ; 

C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: 
chararray, Cname: chararray, 

Cpno: chararray, Ccredit: int); 

D=load'/pigTmp/Course'using PigStorage (', ') as (Cno: 
chararray, Cname: chararray, 

Cpno: chararray, Ccredit: int); 

E=Foreach (Filter (Join C By Cpno, D By Cno) By D: Cname=='C 
Language!) 

Generate C: Cno; 

F=Foreach (Join (Join B By Cno, E By Cno) By Sno, A By Sno) 
Generate Sname; 


和 





当然 ， 如 果 想 一 步 执行 完 也 是 可 以 的 ， 只 需要 将 上 面 操作 的 后 两 步 再 柑 套 起 来 即 可 : 


一 e E 
A=load'/pigTmp/Student'using PigStorage (': ') as (Sno: 
chararray, Sname: chararra 
y, Ssex: chararray, Sage: int, Sdept: chararray) ; 


B=load'/pigTmp/SC'using PigStorage (', ') as (Sno: chararray, 
Cno: chararray, Grade: int) ; 
C=load'/pigTmp/Course'using PigStorage (', ') as (Cno: 


chararray, Cname: chararray, 

Cpno: chararray, Ccredit: int); 

D=load'/pigTmp/Course'using PigStorage (', ') as (Cno: 
chararray, Cname: chararray, 

Cpno: chararray, Ccredit: int); 

E=Foreach (Join (Join B By Cno, (Foreach (Filter (Join C By 
Cpno, D By Cno) By 

D: Cname=='C Language') Generate C: Cno) By Cno) By Sno, A By 
Sno) Generate Sname; 


一 








下 面 ， 我 们 使 用 DUMP 关 键 字 来 分 别 对 上 面 三 种 方式 查看 下 运行 结果 ， 发 现 输出 结果 是 
完全 相同 的 ， 如 图 14-9 所 示 : 



































图 14-9 修了 先 修 课 为 “CLanguage” 的 学 生 














14.6” 节 通过 一 个 简单 的 例子 ， 让 用 户 了 解 如 何在 Local 模 式 和 MapReduce 模 式 下 对 数据 








进行 操作 。14.7 节 则 进一步 通过 一 组 复杂 的 例子 ， 


做 了 更 深入 的 介绍 。 

















对 如 何 使 用 Pig Latin 语 言 进 行 复杂 的 操作 


从 14.6 和 14.7 这 两 节 实 例 操作 中 ， 我 们 可 以 看 出 ，Pig Latin 语 言 更 擅长 对 海量 数据 进行 分 
析 。 另 外 ，Pig Latin 语 言 还 支持 幅 套 的 操作 ， 这 样 可 以 让 Pig Latin 语 言 编写 的 程序 更 加 易于 





理解 。 








鉴于 Pig Latin 语 言 的 如 上 特点 ， 我 们 可 以 使 




















Pig 于 对 诸如 日 志 等 规则 的 、 海 量 的 并 





要 定期 维护 的 数据 进行 分 析 处 理 操作 ， 这 样 可 以 大 大 地 提高 系统 的 工作 效率 。 





PE 


14.8 本章 小 结 


在 本 章 中 我 们 通过 对 Pig 的 实际 操作 ， 让 大 家 对 Pig 有 了 一 个 新 的 认识 。 相 信 读 完 本 章 之 
































后 ， 大 家 可 以 使 用 Pig 进 行 简单 地 数据 处 理 了 。Pig Latin 语 言 不 但 自身 提供 了 很 多 的 函数 供 
户 使 用 ， 而 且 大 家 可 以 根据 实际 情况 结合 Java 和 Pig Latin 语 言 编写 具有 特定 功能 的 函数 。 这 
体现 了 Pig 的 可 扩展 性 和 强大 的 功能 。 在 使 用 Pig 的 过 程 中 ， 还 有 很 多 技巧 需要 掌握 ， 这 一 点 
大 家 可 以 在 实际 操作 中 慢 慢 地 体会 。 另 外 ，Pig 还 处 于 完善 阶段 。 从 0.5.0 版 到 0.10.0 版 的 发 展 
过 程 中 ，Pig 进 行 了 很 多 调整 ， 这 离 不 开 广 大 开发 者 的 支持 和 帮助 。 希 望 大 家 能 够 通过 对 Pig 
的 使 用 ， 向 Apache Hadoop 贡 献 自 己 的 一 份 力量 ! 
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第 15 章 ZooKeeper 








ZooKeeper 简 介 
ZooKeeper 的 安装 和 配置 
ZooKeeper 的 简单 操作 


ZooKeeper 的 特性 








使 用 ZooKeeper 进 行 Leader 选 举 





ZooKeeper 锁 服务 


























使 用 ZooKeeper 创 建 应 用 程序 

















BooKeeper 


本 章 小 结 


15.1 ZooKeeper 简 介 


























ZooKeeper 是 一 个 为 分 布 式 应 用 所 设计 的 开源 协调 服务 。 它 可 以 为 用 户 提供 同步 、 配 置 
管理 、 分 组 和 命名 等 服务 。 用 户 可 以 使 用 ZooKeeper 提 供 的 接口 方便 地 实现 一 致 性 、 组 管 
理 、leader 选 举 及 某 些 协议 。ZooKeeper 意 欲 提供 一 个 易于 编程 的 环境 ， 所 以 它 的 文件 系统 使 
了 我 们 所 熟悉 的 目录 树 结 构 。ZooKeeper 是 使 用 Java 编 写 的， 但 是 它 支 持 Java 和 C 两 种 编程 
语言 接口 。 













































































众所周知 ， 协 调 服务 非常 容易 出 错 ， 而 且 很 难 从 故障 中 恢复 ， 例 如 ， 协 调 服务 很 容易 处 
于 竞 态 以 至 于 出 现 死 锁 。ZooKeeper 的 设计 目的 是 为 了 减轻 分 布 式 应 用 程序 所 承担 的 协调 任 
务 。 























15.1.1 ZooKeeper 的 设计 目标 





众所周知 ， 分 布 式 环境 下 的 程序 和 活动 为 了 达到 协调 一 致 的 目的 ， 通 常 具有 某 些 共同 的 
特点 ， 例 如 ， 简 单 性 、 有 序 性 等 。ZooKeeper 不 但 在 这 些 目标 的 实现 上 有 自身 的 特点 ， 并 且 
具有 其 独特 的 优势 。 下 面 我 们 将 简 述 ZooKeeper 的 设计 目标 。 

















a) 简单 化 





ZooKeeper 人 允许 分 布 式 的 进程 通过 共享 体系 的 命名 空间 来 进行 协调 ， 这 个 命名 空间 的 组 
织 与 标准 的 文件 系统 非常 相似 ， 它 是 由 一 些 数据 寄存 器 组 成 的 。 用 ZooKeeper 的 语法 来 说 ， 
这 些 寄存 器 应 称 为 Znode， 它 们 和 文件 及 目录 非常 相似 。 典 型 的 文件 系统 是 基于 存储 设备 
的 ， 然 而 ，ZooKeeper 的 数据 却 是 存放 在 内 存 当中 的 ， 这 就 意味 着 ZooKeeper 可 以 达到 一 个 
高 的 吞吐 量 ， 并 且 低 延迟 。ZooKeeper 的 实现 非常 重视 高 性 能 、 高 可 靠 性 ， 以 及 严格 的 有 序 
访问 。 












































ZooKeeper 性 能 上 的 特点 决定 了 它 能 够 用 在 大 型 的 、 分 布 式 的 系统 当中 。 从 可 靠 性 方面 
来 说 ， 它 并 不 会 因为 一 个 节点 的 错误 而 崩溃 。 除 此 之 外 ， 它 严格 的 序列 访问 控制 意味 着 复杂 
































的 控制 原 语 可 以 应 用 在 客户 端 上 。 











(2) 健壮 性 





组 成 ZooKeeper 服 务 的 服务 器 必须 互相 知道 其 他 服务 器 的 存在 。 它 们 维护 着 一 个 处 于 内 














存 中 的 状态 镜像 ， 以 及 一 个 位 于 存储 器 中 的 交换 日 志和 快照 。 只 要 大 部 分 的 服务 器 可 用 ， 那 























么 ZooKeeper 服 务 就 可 











(3) 有 序 性 





如 果 客 户 端 连接 到 单个 ZooKeeper 服 务 器 上 ， 那 么 这 个 客户 端 就 管理 着 一 个 TCP 连 接 ， 
并 且 通 过 这 个 TCP 连 接 来 发 送 请 求 、 获 得 响应 、 获 取 检 测 事件 ， 以 及 发 送 心跳 。 如 果 连 接 到 
服务 器 上 的 TCP 连 接 断 开 ， 客 户 端 将 连接 到 其 他 的 服务 器 上 。 





ZooKeeper 可 以 为 每 一 次 更 新 操作 赋予 一 个 版 本 号 ， 并 且 此 版 本 号 是 全 局 有 序 的 ， 不 存 
在 重复 的 情况 。ZooKeeper 所 提供 的 很 多 服务 也 是 基于 此 有 序 性 的 特点 来 完成 。 





(4) 速度 优势 

















它 在 读 取 主 要 负载 时 尤其 快 。ZooKeeper 应 用 程序 在 上 千 台 机 器 的 节点 上 运行 。 另 外 ， 














需要 注意 的 是 ZooKeeper 有 这 样 一 个 特点 : 当 读 工作 比 写 


作 更 多 的 时 候 ， 它 执行 的 性 能 会 





更 好 。 


除 此 之 外 ，ZooKeeper 还 具有 原子 性 、 单 系统 镜像 、 可 靠 性 的 及 时 效 性 等 特点 。 


15.1.2 ”数据 模型 和 


ZooKeeper 提 供 的 命 














层次 命名 空间 





名 空间 与 标准 的 文件 系统 非常 相似 。 它 的 名 称 是 上 
路 径 名 序列 所 组 成 的 。ZooKeeper 中 的 每 一 个 节点 都 是 通过 路 径 来 识别 的 。 














415-1 Zookeeper" 


P 节 点 的 数据 模型 ， 这 种 树 形 结构 的 命名 空间 操 f 
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通过 斜 线 分 隔 的 











FE 方便 且 易 于 理解 。 
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图 15-1 ZooKeeper 的 层次 命名 空间 


ee 
7FK 2/DT3 


15.1.3 ”ZooKeeper 中 的 节点 和 临时 节点 


通过 上 一 节 的 内 容 ， 大 家 可 以 了 解 到 在 ZooKeeper 中 存在 着 节点 的 概念 ， 同 时 也 知道 了 
这 些 节 点 是 通过 像 树 一 样 的 结构 来 进行 维护 的 ， 并 且 每 一 个 节点 通过 路 径 来 标识 及 访问 。 除 
此 之 外 ， 每 一 个 节点 还 拥有 自身 的 一 些 信息 ， 包 括 : 数据 、 数 据 长 度 、 创 建 时 间 、 修 改 时 间 
等 。 从 节点 的 这 些 特 性 〈 既 含有 数据 ， 又 通过 路 径 来 标识 ) 可 以 看 出 ， 它 既 可 以 被 看 作 是 一 
个 文件 ， 又 可 以 被 看 作 是 一 个 目录 ， 因 为 它 同时 具有 二 者 的 特点 。 为 了 便于 表达 ， 后 面 我 们 
将 使 用 Znode 来 表示 所 讨论 的 ZooKeeper 节 点 。 
































具体 地 说 ，Znode 维 护 着 数据 、 访 问 控 制 列 表 Caccess control list, ACL) 、 时 间 惟 等 包含 
交换 版 本 号 信息 的 数据 结构 ， 通 过 对 这 些 数据 的 管理 使 缓存 中 的 数据 生效 ， 并 且 执行 协调 更 
新 操作 。 每 当 Znode 中 的 数据 更 新 它 所 维护 的 版 本 号 就 会 增加 ， 这 非常 类 似 于 数据 库 中 计数 
器 时 间 稚 的 操作 方式 。 




















另外 Znode 还 具有 原子 性 操作 的 特点 : 在 命名 空间 中 ， 每 一 个 Znode 的 数据 将 被 原子 地 读 
写 。 读 操作 将 读 取 与 Znode 相 关 的 所 有 数据 ， 写 操作 将 替换 掉 所 有 的 数据 。 除 此 之 外 ， 每 一 
个 节点 都 有 一 个 访问 控制 列表 ， 这 个 访问 控制 列表 规定 了 用 户 操作 的 权限 。 


























ZooKeeper 中 同样 存在 临时 节点 。 这 些 节 点 与 session 同 时 存在 ， 当 session 生 命 周期 结 
时 ， 这 些 临 时 节点 也 将 被 删除 。 临 时 节点 在 某 些 场合 也 发 挥 着 非常 重要 的 作用 ， 例 如 Leader 
选举 、 锁 服务 等 。 



































15.1.4 ”ZooKeeper 的 应 























ZooKeeper 成 功 地 应 用 于 大 量 的 工业 程序 中 。 它 在 Yahoo! 被 用 作 雅 虎 消息 代理 
(Yahoo! Message Broker) 的 协调 和 故障 恢复 服务 。 雅 虎 消息 代理 是 一 个 高 度 可 扩展 的 发 
布 -订阅 系统 ， 它 管理 着 上 千 的 总 联机 程序 和 信息 控制 系统 (Total On-line Program and 
Information Control System, TOPICS) ， 另 外 它 还 用 于 为 Yahoo! crawler 获 取 服 务 并 进行 故 
障 维护 。 除 此 之 外 ， 一 些 Yahoo! 广告 系统 也 同样 使 用 ZooKeeper 来 实现 可 靠 的 服务 。 






























































15.2 ”ZooKeeper 的 安装 和 配置 





在 这 一 节 中 ， 我 们 将 首先 向 大 家 介绍 如 何在 不 同 的 环境 下 安装 并 配置 ZooKeeper 服 务 ， 
然后 具体 介绍 如 何 通过 ZooKeeper 配 置 文件 对 ZooKeeper 进 行 配置 管理 ， 最 后 向 大 家 介绍 如 
何在 不 同 环境 下 启动 ZooKeeper 服 务 。 








15.2.1 安装 ZooKeeper 


ZooKeeper 有 不 同 的 运行 环境 ， 包 括 : 单机 环境 、 集 群 环境 和 集群 伪 分 布 环境 。 这 里 ， 
我 们 将 分 别 介绍 不 同 环境 下 如 何 安装 ZooKeeper 服 务 ， 并 简单 介绍 它们 的 区 别 与 联系 。 

















1. 系 统 要 求 
下 面 将 说 明 安 装 ZooKeeper 对 系统 和 软件 的 要 求 。 


(1) 支持 的 平台 





ZooKeeper 可 以 在 不 同 的 系统 上 运行 ， 表 15-1 是 关于 这 方面 的 一 个 简单 说 明 。 


表 15-1 ZooKeeper 支持 的 平台 

























系统 可 用 作 的 平台 

GNU/Linux | 开发 和 生产 平台 | 服务 器 和 客户 
San Solaris | 开发 和 生产 平台 | 服务 器 和 客户 庙 
FreeBSD | 开发 和 生产 平台 | 仅 可 用 作客 户 端 
Win32 F | 服务 器 和 客户 





MacOSX 服务 器 和 客户 端 


(2) 软件 要 求 


首先 ， 安 装 ZooKeeper 需 要 Java 的 支持 ， 并 且 要 求 1.6 以 上 的 版 本 。 此 外 ， 对 于 集群 的 安 
装 ，ZooKeeper 需 要 至 少 三 个 节点 ， 我 们 建议 将 三 个 节点 部 署 在 不 同 的 机 器 上 。 例 如 ， 
Yahoo! 将 ZooKeeper 部 署 在 Red Hat Linux 机 器 上 ， 每 台 机 器 使 用 多 核 CRU，2G 的 内 存 和 80G 























的 IDE 硬 盘 。 


JDK 的 安装 已 经 在 前 面 章 节 中 有 过 详细 介绍 ， 这 里 不 再 资 述 。 











注意 ”由 于 频繁 的 换 入 换 出 操作 对 系统 的 性 能 有 较 大 的 影响 ， 为 了 避免 这 种 情况 的 发 
生 ， 建 议 将 Java 的 堆 大 小 设置 为 合适 的 值 。 一 般 说 来 ， 所 设置 的 Java 堆 大 小 的 值 不 应 大 于 实 
际 可 用 的 内 存 值 。 对 于 具体 的 值 的 大 小 ， 可 以 通过 负载 测试 来 决定 。 例 如 ， 建 议 将 4GB 内 存 
的 机 器 的 Java 堆 大 小 设置 为 3GB。 















































系统 中 ， 要 求 大 多 数 机 器 处 于 可 用 状态 。 如 果 想 要 集群 能 够 忍受 m 台 机 器 的 故障 ， 那 么 
整个 集群 至 少 需要 2m+1 台 机 器 。 因 为 此 时 剩余 的 m+1 台 才能 构成 系统 的 一 个 大 多 数 集 。 例 
如 ， 对 于 拥有 三 台 机 器 的 集群 ， 系 统 能 够 在 一 台 机 器 发 生 故 障 的 情况 下 仍然 提供 服务 。 
























































另外 ， 最 好 使 用 奇数 台 的 机 器 。 例 如 ， 拥 有 四 台 机 器 的 ZooKeeper 只 能 处 理 一 台 机 器 的 

故障 ， 如 果 两 台 机 器 发 生 故 障 ， 余 下 的 两 台 机 器 并 不 能 组 成 一 个 可 用 的 ZooKeeper 大 多 数 集 

三 台 机 器 才能 构成 四 台 机 器 的 大 多 数 集 ) ; 而 如 果 ZooKeeper 拥 有 五 台 机 器 ， 那 么 它 就 能 
处 理 两 台 机 器 的 故障 了 。 












































2. 单 机 下 安装 ZooKeeper 


(1) ZooKeeper 的 下 载 

















如 果 大 家 是 第 一 次 使 用 ZooKeeper， 那 么 我 们 建议 首先 尝试 在 单机 模式 下 配置 
ZooKeeper 服 务 器 。 因 为 ， 在 单机 模式 下 配置 和 使 用 相对 来 说 都 要 简单 得 多 ， 并 且 易 于 帮助 
大 家 理解 ZooKeeper 的 工作 原理 。 这 对 进一步 学 习 使 用 ZooKeeper 会 有 很 大 的 帮助 。 
























































从 Apache 官 方 网 站 下 载 一 个 ZooKeeper 的 最 新 稳定 版 本 ， 网 址 如 下 : 


OO 
http: //hadoop.apache.org/zookeeper/releases.html 
本 




















作为 国内 用 户 来 说 ， 选 择 最 近 的 源 文件 服务 器 所 在 地 ， 能 够 节省 不 少 的 时 间 ， 比 如 : 


a | 


http: //labs.renren.com/apache-mirror/hadoop/zookeeper/ 


ETT 


(2) ZooKeeper 的 安装 


为 了 今后 操作 方便 ， 我 们 需要 对 ZooKeeper 的 环境 变量 进行 配置 ， 方 法 如 下 ， 
在 /etc/profile 文 件 中 加 入 如 下 的 内 容 : 
| 


#Set ZooKeeper Enviroment 
export ZOOKEEPER HOME=$HADOOP HOME/zookeeper-3.4.3 
export PATH=$PATH: $ZOOKEEPER HOME/bin: $ZOOKEEPER HOME/conf 


一 
ZooKeeper 服 务 器 包含 在 单个 JAR 文 件 中 ， 安 装 此 服务 需要 用 户 创建 一 个 配置 文档 ， 并 
对 其 进行 设置 。 我 们 在 ZooKeeper-*.*.* 目 录 (本 书 以 当前 ZooKeeper 的 最 新 版 3.4.3 为 例 ， 故 
在 下 文中 此 “ZooKeeper-*.*.*” 都 将 写 为 “ZooKeeper-3.4.3”) 的 conf 文 件 夹 下 创建 一 个 zoo.cfg 
文件 ， 它 包含 如 下 的 内 容 : 
[OO | 


tickTime=2000 
dataDir=$HADOOP HOME/zookeeper-3.4.3/data 
clientPort=2181 


CQ 一， 

在 这 个 文件 中 ，$HADOOP_HOME 代 表 Hadoop 的 安装 目录 ， 为 了 使 用 的 方便 ， 我 们 将 
其 放 在 Hadoop 安 装 目录 下 。 需 要 注意 的 是 ，ZooKeeper 的 运行 并 不 依赖 于 Hadoop， 也 不 依赖 
于 HBase 或 其 它 与 Hadoop 相 关 的 项 目 。 此 外 ， 我 们 需要 指定 dataDir 的 值 ， 它 指向 了 一 个 目 
录 ， 这 个 目录 在 开始 的 时 候 应 为 空 。 下 面 是 每 个 参数 的 含义 : 


































































































tickTime: 基本 事件 单元 ， 以 毫秒 为 单位 。 它 用 来 指示 心跳 ， 最 小 的 session 过 期 时 间 为 
两 倍 的 tickTime。 














dataDir: 存储 内 存 中 数据 库 快照 的 位 置 ， 如 果 不 设置 参数 ， 更 新 事务 的 日 志 将 被 存储 到 
默认 位 置 。 





clientPort: 监听 客户 端 连接 的 端口 。 




















使 用 单机 模式 时 大 家 需要 注意 : 这 种 配置 方式 下 没有 ZooKeeper 副 本 ， 所 以 如 果 
ZooKeeper 服 务 器 出 现 故 障 ，ZooKeeper 服 务 将 会 停止 。 





代码 清单 15-1 是 我 们 根据 自身 情况 所 设置 的 ZooKeeper 配 置 文 档 : zoo.cfg。 


代码 清单 15-1 ZooKeeper 配 置 文档 zoo.cfg 


SSS 
#The number of milliseconds of each tick 
tickTime=2000 
#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper-3.4.3/data 
#the port at which the clients will connect 
clientPort=2181 


| | 


3. 在 集群 下 安装 ZooKeeper 




















为 了 获得 可 靠 的 ZooKeeper 服 务 ， 用 户 应 该 在 一 个 集群 上 部 署 ZooKeeper。 只 要 集群 上 
大 多 数 的 ZooKeeper 服 务 启动 了 ， 那 么 总 的 ZooKeeper 服 务 将 是 可 用 的 。 























这 之 后 的 操作 和 单机 模式 的 安装 类 似 ， 我 们 同样 需要 对 Java 环 境 进 行 设置 ， 下 载 最 新 的 
ZooKeeper 稳 定 版 本 并 配置 相应 的 环境 变量 。 每 台 机 器 上 conf/zoo.cfg 配 置 文件 的 参数 设置 相 
同 ， 可 参考 代码 清单 15-2 的 配置 。 











代码 清单 15-2 ”zoo.cfg 中 的 参数 设置 


OO? TI 
#The number of milliseconds of each tick 

tickTime=2000 

#The number of ticks that the initial 

#synchronization phase can take 

initLimit=10 

#The number of ticks that can pass between 

#sending a request and getting an acknowledgement 

syncLimit=5 

#the port at which the clients will connect 





clientPort=2181 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper-3.4.3/data 
#the location of the log file 
dataLogDir=$HADOOP_HOME/zookeeper-3.4.3/log 
server.1=zool: 2888: 3888 

server.2=z002: 2888: 3888 

server .3=z003: 2888: 3888 


See 

更 多 关于 ZooKeeper 参 数 的 设置 请 参看 15.2.2 节 。“serverid=host: port: port” 标 识 了 不 
同 的 ZooKeeper 服 务 器 的 配置 。 每 台 服 务 器 作为 集群 的 一 部 分 应 该 知道 ensemble |!) 中 的 其 
他 机 器 ， 用 户 可 以 从 “serverid=host: port: port.” 中 读 取 相关 的 信息 。 参 数 中 host 和 port 比 较 
直观 。id 标 识 的 是 不 同 的 服务 器 ， 在 服务 器 的 data (dataDir 参 数 所 指定 的 目录 ) 目录 下 创建 
一 个 文件 名 为 myid 的 文件 ， 这 个 文件 中 仅 含 一 行 的 内 容 ， 它 所 指定 的 是 自身 的 id 值 。 比 如 ， 
服务 器 “1” 应 该 在 myid 文 件 中 写 入 “1”。 而 且 这 个 id 值 必须 是 ensemble 中 唯一 的 ， 大 小 在 1 到 
255 之 间 。 在 这 一 行 配置 中 ， 第 一 个 端口 (port) 是 从 (follower) 机 器 连接 到 主 (leader) 机 
器 的 端口 ， 第 二 个 是 用 来 进行 leader 选 举 的 端口 。 在 这 个 例子 中 ， 每 台 机 器 使 用 三 个 端口 ， 
分 别 是 : clientPort, 2181; port, 2888; port, 3888. 

























































































笔者 在 拥有 三 台 机 器 的 Hadoop 集 群 上 测试 了 ZooKeeper 的 安装 ， 如 上 所 示 ， 代 码 清 单 15- 
2 就 是 根据 自身 情况 所 设置 的 ZooKeeper 配 置 文档 。 








清单 中 的 zol、zoo2 及 zoo3 分 别 为 三 台 机 器 的 主机 名 ， 该 项 需要 在 Ubuntu 的 host 环 境 中 进 
行 设置 ， 这 部 分 内 容 不 是 本 书 的 重点 ， 不 再 效 述 。 大 家 可 以 查阅 Ubuntu 以 及 Linux 的 相关 次 
料 。 











4. 在 集群 伪 分 布 模式 下 安装 ZooKeeper 





通过 前 面 的 章节 ， 读 者 了 解 到 Hadoop 可 以 在 伪 分 布 模式 下 模拟 分 布 式 Hadoop 的 运行 。 
与 它 不 同 的 是 ，ZooKeeper 不 但 可 以 在 单机 上 运行 单机 模式 ZooKeeper， 而 且 可 以 在 单机 上 
模拟 集群 模式 ZooKeeper 的 运行 ， 也 就 是 将 不 同 的 节点 运行 在 同一 台 机 器 上 。 我 们 索性 将 其 
称 之 为 “集群 伪 分 布 模式 *"， 以 区 别 “ 单 机 模式 "。 我 们 知道 ， 伪 分 布 模式 下 Hadoop 的 操作 和 分 

















布 式 模式 下 有 着 很 大 的 不 同 ， 但 是 在 集群 伪 分 布 模式 下 对 ZooKeeper 的 操作 却 和 集群 模式 下 


没有 本 质 的 


区 别 。 显 然 ， 集 群 伪 分 布 模式 为 我 们 体验 ZooKeeper 和 做 一 些 尝试 性 的 实验 提供 














了 很 大 的 便利 。 比 如 ， 我 们 在 实验 的 时 候 ， 可 以 先 使 用 少量 数据 在 集群 伪 分 布 模式 下 进行 测 


试 。 当 测试 可 


D| 

















[ 行 的 时 候 ， 再 将 其 移植 到 集群 模式 下 进行 真实 的 数据 实验 。 这 样 不 但 保证 了 它 








的 可 行 性 ， 


可 


时 大 大 提高 了 实验 的 效率 。 














那么 ， 如 何 配置 ZooKeeper 的 集群 伪 分 布 模式 呢 ? 其 实 很 简单 。 用 心 的 读者 可 以 发 现 ， 
在 ZooKeeper 配 置 文档 中 ，clientPort 参 数 是 用 来 设置 客户 端 连接 ZooKeeper 的 端口 。 在 


server.1=IP 1: 


























2887: 3887 中 ，IP1 指 示 的 是 组 成 ZooKeeper 服 务 的 机 器 IP 地 址 ，2887 为 进行 








leader 选 举 的 端口 ，3887 是 组 成 ZooKeeper 服 务 的 机 器 之 间 的 通信 端口 。 在 集群 伪 分 布 模式 下 














我 们 使 用 每 个 配置 文档 模拟 一 台 机 器 ， 也 就 是 说 ， 需 要 在 单 台 机 器 上 运行 多 个 ZooKeeper 实 
例 。 但 是 ， 必 须要 保证 各 个 配置 文档 的 各 个 端口 不 能 冲突 。 

















下 


= 


是 我 们 所 配置 的 集群 伪 分 布 模式 ， 分 别 通过 zool.cfg、zoo2.cfg、zoo3.cfg 来 模拟 有 





三 台 机 器 的 ZooKeeper 集 群 。 详 见 代 码 清单 15-3 至 清单 15-5。 


代码 清单 15-3 zool.cfg 


= 





#The number of milliseconds of each tick 
tickTime=2000 

#The number of ticks that the initial 
#synchronization phase can take 

initLimit=10 

#The number of ticks that can pass between 
#sending a request and getting an acknowledgement 
syncLimit=5 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper-3.4.3/d_1 
#the port at which the clients will connect 
clientPort=2181 

#the location of the log file 


dataLogDir=SHADOOP_HOME/zookeeper-3.4.3/logs_1 
server.1=localhost: 2887: 3887 
server.2=localhost: 2888: 3888 
server.3=localhost: 2889: 3889 


Ts | 


代码 清单 15-4 zoo2.cfg 


aM) 
#The number of milliseconds of each tick 
tickTime=2000 

#The number of ticks that the initial 
#Synchronization phase can take 

initLimit=10 

#The number of ticks that can pass between 
#sending a request and getting an acknowledgement 
syncLimit=5 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper-3.4.3/d_2 

#the port at which the clients will connect 
clientPort=2182 

#the location of the log file 
dataLogDir=SHADOOP_HOME/zookeeper-3.4.3/logs_2 
server.1=localhost: 2887: 3887 = 
server.2=localhost: 2888: 3888 

server.3=localhost: 2889: 3889 


st 





代码 清单 15-5 zoo3.cfg 


| 
#The number of milliseconds of each tick 
tickTime=2000 

#The number of ticks that the initial 
#Synchronization phase can take 

initLimit=10 

#The number of ticks that can pass between 
#sending a request and getting an acknowledgement 
syncLimit=5 

#the directory where the snapshot is stored. 
dataDir=$HADOOP_HOME/zookeeper-3.4.3/d_3 

#the port at which the clients will connect 
clientPort=2183 

#the location of the log file 
dataLogDir=SHADOOP_HOME/zookeeper-3.4.3/logs_3 
server.1=localhost: 2887: 3887 

server.2=localhost: 2888: 3888 

server.3=localhost: 2889: 3889 


5 





从 上 述 三 个 代码 清单 可 以 看 到 ， 它 们 除了 clientPort 不 同 之 外 ，dataDir 也 不 同 。 另 外 ， 不 





忘记 在 dataDir 所 对 应 的 目录 中 创建 myid 文 件 来 指定 对 应 的 ZooKeeper 服 务 器 实例 。 


四 全体， 相对 于 大 多 数 集 (quorum) 而 言 。 


15.2.2 ”配置 ZooKeeper 


ZooKeeper 的 功能 特性 是 通过 ZooKeeper 配 置 文件 来 进行 控制 管理 〈zoo.cfg 配 置 文件 ) 














的 。 这 样 的 设计 其 实 有 其 自身 的 原 





ZooKeeper 集 群 进行 配置 的 时 候 ， 





只 有 很 少 的 部 分 是 不 同 的 ) 。 这 样 























如 果 服 务 器 使 用 不 同 的 配置 文件 ， 必 











在 设置 ZooKeeper 配 置 文档 的 由 


。 通 过 前 面 对 ZooKeeper 的 配置 可 以 看 出 ， 在 对 

全 相同 的 (对 于 集群 伪 分 布 模式 来 说 ， 
4 配置 方式 使 得 在 部 署 ZooKeeper 服 务 的 时 候 非 常 方便 。 
须要 确保 不 同 配置 文件 





bh 的 服务 器 列表 相 匹 配 。 


吴 ， 某 些 参 数 是 可 选 的 ， 但 是 某 些 参 数 是 必需 的 。 这 些 


必需 的 参数 就 构成 了 ZooKeeper 配 置 文档 的 最 低 配 置 要 求 。 另 外 ， 如 果 需 要 对 ZooKeeper 进 














行 更 详细 的 配置 ， 大 家 可 以 参考 下 


.最 低 配 置 














2) dataDir: 存储 内 存 中 数据 库 快照 的 位 置 。 


下 面 是 在 最 低 配置 要 求 中 必须 配置 的 参数 : 


clientPort 监听 客户 端 连接 的 端口 。 








注意 “应 该 谨慎 地 选择 日 志 存放 的 位 置 ， 使 
的 性 能 ， 如 果 将 日 志 存 储 在 比较 繁忙 的 存储 设备 上 





ae 
Heo 


3) tickTime: 基本 事件 单元 ， 以 毫秒 为 单位 ， 


会 话 超时 时 间 为 两 倍 的 tickTime。 


2. 高 级 配置 












































的 日 志 存 储 设备 能 够 大 大 地 提高 系统 
那么 将 会 在 很 大 程度 上 影响 系统 的 性 


来 控制 心跳 和 超时 ， 默 认 情 况 下 最 小 的 








下 面 是 高 级 配置 要 求 中 可 选 的 配置 参数 ， 





ZooKeepert 的 行为 : 




















下 面 的 参数 来 更 好 地 规定 


(1) dataLogDir 








这 个 操作 让 管理 机 器 把 事务 日 志 写 入 “dataLogDir" 所 指定 的 目录 中 ， 而 不 是 “dataDir" 所 
指定 的 目录 。 这 将 允许 使 用 一 个 专用 的 日 志 设备 ， 并 且 帮 助 我 们 避免 日 志和 快照 之 间 的 竞 
P. MAWT: 


(= 
#the location of the log file 
dataLogDir=/root/hadoop-0.20.2/zookeeper-3.4.3/log/data_log 


二 一 



































(2) maxClientCnxns 

这 个 操作 将 限制 连接 到 ZooKeeper 的 客户 端的 数量 ， 并 且 限 制 并 发 连接 的 数量 ， 它 通过 
卫 来 区 分 不 同 的 客户 端 。 此 配置 选项 可 以 用 来 阻止 某 些 类 别 的 Dos 攻 击 。 将 它 设置 为 0 或 忽略 
而 不 进行 设置 将 会 取消 对 并 发 连接 的 限制 。 




















例如 ， 此 时 我 们 将 maxClientCnxns 的 值 设置 为 1， 如 下 所 示 : 
天 一 


#set maxClientCnxns 
maxClientCnxns=1 


= | 











启动 ZooKeeper 之 后 ， 首 先 用 一 个 客户 端 连 接 到 ZooKeeper 服 务 器 之 上 。 之 后 如 果 有 第 
二 个 客户 端 尝试 对 ZooKeeper 进 行 连接 ， 或 者 有 某 些 隐 式 的 对 客户 端的 连接 操作 ， 将 会 触发 
ZooKeeper 的 上 述 配置 。 系 统 会 提示 相关 信息 ， 如 图 15-2 所 示 。 











izk: localhost: 2161(COMNECTED! 0] 2011-01-18 08:53:52,748 - WARN [MIOServerCxn， 
Factory: 6.0.8,0/8.8,6.0:2181:NI0ServerCransFactorya246] - Too many commections fi 


COM 1127.28.82 - Rak 5 
2811-81-18 68:54:85,792 - MRN [NIOServerCxm_Factory:8.6.6.8/6.0.8.6:2181:NI0Se 
ee ree ~ Too many connections fros /127.0.0.1 - max is l 





图 15-2 ZooKeeper maxClientCnxns 异 常 


(3) minSessionTimeout 和 maxSessionTimeout 
即 最 小 的 会 话 超时 时 间 和 最 大 的 会 话 超时 时 间 。 在 默认 情况 下 ， 最 小 的 会 话 超时 时 间 为 


2 倍 的 ticKkrme 时 间 ， 最 大 的 会 话 超时 时 间 为 20 倍 的 会 话 超时 时 间 。 系 统 启动 时 会 显示 相应 的 
信息 ， 如 图 15-3 所 示 。 





图 15-3 默认 会 话 超时 时 间 


从 上 图 中 可 以 看 出 ，minSessionTimeout 及 maxSessionTimeout 的 值 均 为 -1。 现 在 我 们 来 设 
置 系统 的 最 小 和 最 大 的 会 话 超时 时 间 ， 如 下 所 示 ; 


一 
#set minSessionTimeout 
minSessionTimeout=1000 
#set maxSessionTImeout 
maxSessionTimeout=10000 


Eee 

在 配置 minSessionTmeout 及 maxSessionTimeout 的 值 时 需要 注意 ， 如 果 将 此 值 设置 得 太 小 
的 话 ， 会 话 很 可 能 刚刚 建立 便 由 于 超时 而 不 得 不 退出 。 一 般 情 况 下 ， 不 能 将 此 值 设 置 得 比 
tickTime 的 值 还 小 。 

3. 集 群 配 置 

(1) initLimit 

此 配置 表示 ， 人 允许 follower( 相 对 于 leader 而 言 的 “客户 端 "〉 连 接 并 同步 到 leader 的 初始 
化 连接 时 间 ， 它 是 以 tickTime 的 倍数 来 表示 的 。 当 初始 化 连接 时 间 超过 设置 倍数 的 tickTime 时 


间 时 ， 则 连接 失败 。 


(2) syncLimit 


此 配置 表示 leader 与 follower 之 间 发 送 消息 时 请 求 和 应 答 的 时 间 长 度 。 如 果 follower 在 设 
置 的 时 间 内 不 能 与 leader 通 信 ， 那 么 此 follower 将 被 丢弃 。 


15.2.3 ”运行 ZooKeeper 


1. 单 机 模式 下 运行 ZooKeeper 


如 果 大 家 已 经 按照 15.2.1 节 中 的 第 2 点 正确 地 配置 了 ZooKeeper 的 环境 变量 ， 那 么 我 们 现 
在 可 以 直接 在 终端 运行 ZooKeeper 的 sh 脚本 了 ， 从 而 启动 ZooKeeper 的 服务 。 








大 家 可 以 通过 下 面 的 命令 来 启动 ZooKeeper 服 务 : 
Eee 


zkServer.sh start 
—_—————————————— I 


这 个 命令 默认 情况 下 执行 ZooKeeper 的 conf 文 件 夹 下 的 zoo.cfg 配 置 文件 。 当 运行 成 功 时 
大 家 会 看 到 类 似 如 下 的 提示 界面 : 
小 


root@ubuntu: ~#zkServer.sh start 

JMX enabled by default 

Using config: /root/hadoop-0.20.2/zookeeper- 
3.4.3/bin/../conf/zoo.cfg 

Starting Zookeeper... 

STARTED 





2011-01-19 10: 04: 42, 300-WARN[main: QuorumPeerMain@105]- 
Either no config or no 
quorum defined in config, running in standalone mode 


2011-01-19 10: 04: 42, 419-INFO[main: ZooKeeperServer@660] - 
tickTime set to 2000 
2011-01-19 10: 04: 42, 419-INFO[main: ZooKeeperServer@669]- 
minSessionTimeout 
set to-1 
2011-01-19 10: 04: 42, 419-INFO[main: ZooKeeperServer@678] - 
maxSessionTimeout 
set to-1 
2011-01-19 10: 04: 42, 560-INFO[main: 
NIOServerCnxn$Factory@143]-binding to port 
0.0.0.0/0.0.0.0: 2181 
2011-01-19 10: 04: 42, 806-INFO[main: FileSnap@82]-Reading 
snapshot/root/ 
hadoop-0.20.2/zookeeper-3.4.3/data/version- 





2/snapshot.200000036 

2011-01-19 10: 04: 42, 927-INFO[main: FileSnap@82]-Reading 
snapshot/root/ 

hadoop-0.20.2/zookeeper-3.4.3/data/version- 
2/snapshot.200000036 

2011-01-19 10: 04: 42, 950-INFO[main: FileTxnSnapLog@208]- 
Snapshotting: 

400000058 


ee | 


从 上 面 可 以 看 出 ， 运 行 成 功 后 ， 系 统 会 列 出 ZooKeeper 运 行 的 相关 环境 配置 信息 。 


2. 集 群 模式 下 运行 ZooKeeper 














在 集群 模式 下 需要 用 户 在 每 台 ZooKeeper 机 器 上 运行 第 一 部 分 的 命令 ， 这 里 不 再 效 述 。 





3. 集 群 伪 分 布 模式 下 运行 ZooKeeper 








在 集群 伪 分 布 模式 下 ， 我 们 只 有 一 台 机 器 ， 但 是 要 运行 三 个 ZooKeeper 服 务实 例 。 此 
时 ， 如 果 再 使 用 上 述 命令 式 肯定 是 行 不 通 的 。 这 时 只 要 通过 下 面 三 条 命令 就 能 运行 前 面 所 配 
置 的 ZooKeeper 服 务 了 。 如 下 所 示 : 























= 
zkServer.sh start zool.cfg 
zkServer.sh start zoo2.cfg 
zkServer.sh start zoo3.cfg 


一 








在 运行 完 第 一 条 命令 之 后 ， 大 家 将 会 发 现 一 些 系统 错误 提示 ， 如 图 15-4 所 示 。 








息 ， 它 们 在 启动 的 时 候 会 随时 


WARN [Worte 
ction 


wor UBCANMana 


astLeaderElect Lonsmessenpe 


ostLeoverElectionstess 








15-4 集群 伪 分 布 异常 提示 














如 图 15-4 所 示 的 异常 信息 是 由 于 ZooKeeper 服 务 的 每 个 实例 都 拥有 全 局 的 配置 信 
也 进行 Leader 选 举 操 作 (此 部 分 内 容 后 面 将 会 详细 讲述 ) 。 此 


时 第 一 个 启动 的 Zookeeper 需 要 和 另外 两 个 ZooKeeper 实 例 进行 通信 。 但 是 ， 另 外 两 个 


ZooKeeper 实 例 还 没有 启动 起 来 ， 因 此 就 7 





我 们 直接 将 其 忽略 即 可 ， 











4.ZooKeeper 字 命 令 





E 了 这 样 的 异常 信息 。 





待 把 图 示 中 的 “2 号 ”和 “3 号 ”ZooKeeper 实 例 启动 起 来 之 后 ， 相 
应 的 异常 信息 就 会 自然 而 然 的 消失 了 。 








ZooKeeper 支 持 某 些 特定 的 
































字 命 令 字母 与 其 的 交互 。 它 们 大 多 是 查询 命令 ， 


来 获取 


ZooKeeper 服 务 的 当前 状态 及 相关 信息 。 用 户 在 客户 端 可 以 通过 telnet 或 nc 向 ZooKeeper 提 交 











相应 的 命令 。ZooKeeper 常 朋 











的 四 字 命 令 见 表 15-2。 





表 15-2 ZooKeeper 四 字 命 令 
ZooKeeper 网 字 命 令 功能 描 还 
conf 输 则 相关 服务 配置 的 详细 信息 


列 出 连接 到 服务 器 的 所 有 客户 端的 详细 连接 /会话 信 息 。 包括 “接受 /发送 ”的 包 
数量 、 会 笑 这 、 操 作 延 退 、 最 后 的 操作 执行 等 信息 





cons 











dump 列 出 未 经 处 理 的 会 话 和 临时 节点 

envi 输出 关于 服务 环境 的 详细 信息 〈 区 别 于 conf 命令 》 

reqs 列 出 未 经 处 理 的 请 求 

ruok 测试 服务 是 否 处 于 正确 状态 。 如 果 确 实 如 此 ， 那 么 服务 返回 “imok"， 否 则 不 做 任 

何 响应 

Stat 输出 关于 性 能 和 连接 的 客户 列 列 表 

wehs 列 出 服务 器 watch 的 详细 信息 

通过 session 列 出 服务 器 watch 的 详细 信息 ， 它 的 销 出 是 一 个 与 wateh HEN AI 
bia 列表 

wehp ALI EANNA watch 的 详细 信息 。 它 输出 一 个 与 session 相关 的 路 和 


























图 15-5 是 ZooKeeper 四 字 命 令 的 一 个 简单 用 例 。 




















rooteubunty- laptop:~# echo ok I mc 19.77,29.23 2181 
izokroot@ubuntu-laptop:~# echo conf | nc 19,77,29,23 2181 
PE TEE 
idatadir=/root/hadoop -@.28.2/zookeeper-3.3.1/d li/version-2 
dataloghir=/root/hadoop-8. 26. 2/200keeper-3.3.1/d L/version-2 
TIiCkT ise=2008 
acl lentcnxns=10 
inSessioaTiseout=4000 
xSessionTiscout=40099 
serverId=1 


inittisit=18 
symcLilaitr5 

Lect LonAlg=3 

elect LonPorte38s7 
quorwePo rt=2887 
peertype=o 
rootQubuntu-laptop:-* 





图 15-5 ZooKeeper 四 字 命 令 用 例 
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在 成 功 启动 ZooKeeper 服 务 之 后 ， 输 入 下 述 命令 ， 连 接 到 ZooKeeper 服 务 : 
| 


zkCli.sh-server 10.77.20.23: 2181 
| 

















连接 成 功 后 ， 系 统 会 输出 ZooKeeper 的 相关 环境 及 配置 信息 ， 并 在 屏幕 输出 “Welcome to 


ZooKeeper” 等 信息 。 























输入 help 之 后 ， 屏 幕 会 输出 可 用 的 ZooKeeper 命 令 ， 如 图 15-6 所 示 : 














Pookeeper ‘server host:port cmd args 
connect host: port 
get path [watch] 
ls path [watch] 
set psth deta [version] 
delquota [-|-b] path 
quit 
orintwatches onjott 
create [-s] [-e] path data acl 
stat path (watch) 
close 
Ls2 path [watch] 
history 
Listquata path 
SetAcl path acl 
getAcl path 
sync path 
redo mno 
addewth schese auth 
delete path [version] 
setquota -nl-b val path 





图 15-6 ZooKeeper 44 


15.3 ”ZooKeeper 的 简单 操作 




















jrr 


和 操作 步骤 





15.3.1 ”使 用 ZooKeeper 命 令 的 简 














1) 使 用 ls 命令 查看 当前 ZooKeeper 中 所 包含 的 内 容 : 


一 
[zk: 10.77.20.23: 2181 (CONNECTED) 1]1s/ 
[zookeeper] 


一 




















2) 创建 一 个 新 的 Znode， 使 用 create/ 水 myData 这 个 命令 创建 了 一 个 新 的 Znode 节 
点 “水 "， 以 及 与 它 关 联 的 字符 串 : 


二 
[zk: 10.77.20.23: 2181 (CONNECTED) 2]create/zk myData 
Created/zk 


ee | 











at 

















3) 再 次 使 用 ls 命令 来 查看 现在 ZooKeeper 中 所 包含 的 内 容 : 


一 
[zk: 10.77.20.23: 2181 (CONNECTED) 3]1s/ 
[zk, zookeeper] 


| 








此 时 看 到 ， 水 节点 已 经 被 创建 。 


4) 下 面 我 们 运行 get 命 令 来 确认 第 二 步 中 所 创建 的 Znode 是 否 包含 我 们 创建 的 字符 串 : 


二 一 
[zk: 10.77.20.23: 2181 (CONNECTED) 4]get/zk 
myData 
Zxid=0x40000000c 
time=Tue Jan 18 18: 48: 39 CST 2011 
Zxid=0x40000000c 
mtime=Tue Jan 18 18: 48: 39 CST 2011 
pZxid=0x40000000c 
cversion=0 
dataVersion=0 
aclVersion=0 
ephemeralOwner=0x0 





dataLength=6 
numChildren=0 


OOOO 
5) 接 下 来 通过 set 命 令 来 对 水 所 关联 的 字符 串 进行 设置 : 


一 
[zk: 10.77.20.23: 2181 (CONNECTED) 5]set/zk shenlan211314 
cZxid=0x40000000c 
ctime=Tue Jan 18 18: 48: 39 CST 2011 
mZxid=0x40000000d 
mtime=Tue Jan 18 18: 52: 11 CST 2011 
pZxid=0x40000000c 
cversion=0 
dataVersion=1 
aclVersion=0 
ephemeralOwner=0x0 
dataLength=13 
numChildren=0 


Oi 
6) 下 面 我 们 将 刚才 创建 的 Znode 删 除 : 


DE eo 
[zk: 10.77.20.23: 2181 (CONNECTED) 6]delete/zk 


5 


Ht 











7) 最 后 再 次 使 用 命令 查看 ZooKeeper 所 包含 的 内 容 : 


= 
[zk: 10.77.20.23: 2181 (CONNECTED) 7]1s/ 
[zookeeper 


5 














经 过 验证 ， 水 节点 已 经 被 删除 。 














15.3.2 ZooKeeper API 的 简单 使 








1.ZooKeeper API 简 介 





ZooKeeper API 共 包含 五 个 包 ， 分 别 为 : org.apache.zookeeper、 


org.apache.zookeeper.data, org.apache.zookeeperserver, org.apache.zookeeper.server.quorum 








和 org.apache.zoolkeeperserverupgrade。 其 中 org.apache.zookeeper 包 含 ZooKeeper 类 ， 它 是 我 


们 编程 时 最 常用 的 类 文件 。 



































这 个 类 是 ZooKeeper 客 户 端 库 的 主要 类 文件 。 如 果 要 使 用 ZooKeeper 服 务 ， 应 用 程序 首 
先 必 须 创 建 一 个 Zooleeper 实 例 ， 这 时 就 需要 使 用 此 类 。 一 旦 客户 端 和 ZooKeeper 服 务 建立 起 
了 连接 ，ZooKeeper 系 统 将 会 给 此 连接 会 话 分 配 一 个 ID 值 ， 并 且 客户 端 将 会 周期 性 地 向 服务 
器 发 送 心跳 来 维持 会 话 的 连接 。 只 要 连接 有 效 ， 客 户 端 就 可 以 调用 ZooKeeper API 来 做 相应 
























































ZooKeeper 类 提供 了 表 15-3 所 示 的 几 类 主要 方法 。 


# 15-3 ZooKeeper 类 方法 描述 


功 能 











create 


delete 

















exists | aikee 

getiset data | 从 目标 节点 

getiset ACL [SME eie a Ufa Re E 
get children | 











sync 











2.ZooKeeper API 的 使 






































这 里 通过 一 个 例子 来 简单 介绍 如 何 使 用 ZooKeeper API 编 写 自己 的 应 用 程序 ， 见 代码 清 
单 15-6。 




















代码 清单 15-6 ZooKeeper API 的 使 





SSS 
package cn.edu.ruc.cloudcomputing.book.chapter14; 
1 import java.io.IOException; 
2 

import org.apache.zookeeper.CreateMode; 

import org.apache.zookeeper.KeeperException; 

import org.apache.zookeeper.Watcher; 

import org.apache.zookeeper.ZooDefs.Ids; 

import org.apache.zookeeper.ZooKeeper; 


SOIHUHRW 


9 public class demo{ 

10// RWE, BEG BER VI la] E 

11 private static final int SESSION_TIMEOUT=30000; 

12 

13// 创 建 zooKeeper 实 例 

14 Zookeeper zk; 

15 

16// 创 建 watchez 实 例 

17 Watcher wh=new Watcher () { 

18 public void process (org.apache. zookeeper.WatchedEvent 
event) 

19{ 

20 System.out.printin (event.toString © ); 

21} 


24// 初 始 化 zooKeeper 实 例 

25 private void createZKInstance () throws IOException 

26{ 

27 zk=new ZooKeeper ("localhost: 2181", demo.SESSION_ TIMEOUT, 
this.wh) ; 

28 

29} 

30 

31 private void ZKOperations () throws IOException, 
InterruptedException, Keepe 

rException 

32{ 

33 System.out.println ("\nl. 创 建 zooKeeper 节 点 (znode: zoo2, %t 
据 : myData2， 

权限 : OPEN_ACL _UNSAFE， 节 点 类 型 : Persistent") ; 

34 zk.create ("/z002", "myData2".getBytes ©, 
Ids.OPEN_ACL_UNSAFE, 

CreateMode.PERSISTENT) ; 

35 


36 System.out.println ("\n2 .查看 是 否 创建 成 功 : " ) ; 
37 System.out.println (new String (zk.getData ("/z002", false, 


null) )); 
38 
39 System.out.printin ("\n3 .修改 节点 数据 " ) ; 
40 zk.setData ("/zoo2", "shenlan211314".getBytes (), -1); 
41 


42 System.out.println ("\n4. 查 看 是 否 修改 成 功 : "); 
43 System.out.printin (new String (zk.getData ("/zo002", false, 


null) )); 


44 

45 System.out.println《"\n5 .删除 节点 "); 

46 zk.delete ("/z002", -1); 

47 

48 System.out.println("\n6. 查 看 节点 是 否 被 删除 : ") 

49 System.out.println "WARS: ["+zk.exists ("/zoo2"，false) 


ey"); 


50} 

51 

52 private void ZKClose () throws InterruptedException 

334 

54 zk.close © ; 

55} 

56 

57 public static void main (String[]args) throws IOException, 


InterruptedExce 


ption, KeeperException{ 
58 demo dm=new demo () ; 

59 dm.createZKInstance () ; 
60 dm.ZKOperations () ; 

61 dm.ZKClose O ; 

62} 

63} 


E | 


此 类 包含 两 个 主要 的 ZooKeeper 函 数 ， 分 别 为 createZKInstance () 和 





ZKOperations () 。 其 中 createZKInstance () 函数 负责 对 ZooKeeper 实 例 水 进行 初始 化 。 














ZooKeeper 类 有 两 个 构造 函数 ， 这 里 使 用 "ZooKeeper (String connectString, int 
sessionTimeout, Watcher watcher) ”对 其 进行 初始 化 。 因 此 ， 我 们 需要 提供 初始 化 所 需 的 
接 字 符 串 信息 、 会 话 超时 时 间 ， 以 及 一 个 watcher 实 例 。 第 17 行 到 第 23 行 的 代码 是 程序 所 构造 


的 


























t 








一 个 watcher 实 例 ， 它 能 够 输出 所 发 生 的 事件 。 





ZKOperations () 函数 是 我 们 所 定义 的 对 节点 的 一 系列 操作 。 它 包括 : 创建 ZooKeeper 
节点 《第 33 行 到 第 34 行 代码 ) 、 查 看 节点 (第 36 行 到 第 37 行 代码 ) 、 修 改 节 点 数据 (第 39 行 
到 第 40 行 代码 ) 、 查 看 修改 后 节点 数据 (第 42 行 到 第 43 行 代码 ) 、 删 除 节点 (第 45 行 到 第 46 
行 代码 ) 、 查 看 节点 是 否 存 在 (第 48 行 到 第 49 行 代码 ) 。 另 外 ， 需 要 注意 的 是 ， 在 创建 节点 
的 时 候 ， 需 要 提供 节点 的 名 称 、 数 据 、 权 限 ， 以 及 节点 类 型 。 此 外 ， 使 用 exists 函 数 时 ， 如 果 
节点 不 存在 则 返回 一 个 null 值 。 关 于 ZooKeeper API 的 更 多 详细 信息 ， 大 家 可 以 查看 
ZooKeeper 的 API 文 档 ， 如 下 所 示 : 

















| 


http: //hadoop.apache.org/zookeeper/docs/r3.4.3/api/index.html 


Em | 





代码 清单 15-6 中 程序 运行 的 结果 如 下 所 示 。 


ee | 

1 创建 ZooKeeper 节 点 (znode: zoo2， 数 据 : myData2， 权 限 : 
OPEN_ACL_UNSAFE， 节 点 类 型 : 

Persistent 

11/01/18 05: 07: 16 INFO zookeeper.ClientCnxn: Socket 
connection established to 

localhost/127.0.0.1: 2181, initiating session 

11/01/18 05: 07: 16 INFO zookeeper.ClientCnxn: Session 
establishment complete on 

server localhost/127.0.0.1: 2181, sessionid=0x12d97£d5d39000a, 
negotiated 

timeout=30000 

WatchedEvent state: SyncConnected type: None path: null 

2 查看 是 否 创建 成 功 : 

myData2 

3 修改 节点 数据 

4 查看 是 否 修改 成 功 : 

shenlan211314 

5 删除 节点 

6 查看 节点 是 否 被 删除 : 

节点 状态 : [null] 


一 


15.4 ”ZooKeeper 的 特性 





15.4.1 ZooKeeper 的 数据 模型 


ZooKeeper 拥 有 一 个 层次 





方 是 命名 空间 中 的 每 个 节点 不 








件 系统 ， 只 不 过 文件 系统 中 的 





文件 还 可 以 具有 目录 的 功能 。 





规范 的 绝对 路 径 来 表示 ， 并 且 
相对 路 径 。 





1.Znode 





ZooKeeper 目 录 树 中 的 每 一 个 节点 对 应 着 一 个 Znode。 每 个 Zno 
它 包 含 数据 的 版 本 号 〈dataVersion) 、 时 间 惟 〈ctime、mtime) 等 状态 信息 。ZooKeeper 正 











是 使 用 节点 的 这 些 特 性 来 实现 它 的 某 些 特定 功能 的 。 每 当 Znode 的 数据 改变 时 ， 它 相应 的 版 

















的 命名 空间 ， 这 和 分 布 式 的 文件 系统 非常 相似 。 唯 一 不 同 的 地 
以 有 和 它 自身 或 它 的 子 节点 相关 联 的 数据 。 这 就 好 像 是 一 个 文 
另外 ， 指 向 节点 的 路 径 必须 使 
L 以 斜 线 “" 来 分 阳 。 需 要 注意 的 是 ， 在 ZooKeeper 中 不 允许 使 





























e 维 护 着 一 个 属性 结构 ， 











本 号 将 会 增加 。 每 当 客 户 端 检索 数据 时 ， 


它 将 同时 检索 数据 的 版 本 





执行 了 某 个 节点 的 更 新 或 删除 操作 ， 
数据 版 本 号 与 实际 的 不 匹配 ， 那 么 这 个 操作 将 会 失败 。 


Znode 是 客户 端 要 访问 的 ZooKeeper 的 主要 实体 ， 它 包含 以 下 / 


(1) Watches 


客户 端 可 以 在 节点 上 设置 watch〈 我 们 称 之 为 上 


它 也 必须 提供 要 被 操作 的 数据 


号 。 并 且 如 果 一 个 客户 端 
的 版 本 号 。 如 果 所 提供 的 











L 个 主要 特征 : 











Wa) 。 当 节点 的 状态 发 生 改变 时 〈 数 


据 的 增 、 删 、 改 等 操作 ) 将 会 触发 watch 对 应 的 操作 。 当 watch 被 触发 时 ，Zoolkeeper 将 会 向 客 


户 端 发 送 且 仅 发 送 一 个 通知 ， 因 为 watch 只 能 被 触发 一 次 。 


(2) 数据 访问 


ZooKeeper 中 的 每 个 节点 上 存储 的 数据 需要 被 原子 性 的 操作 。 也 就 是 说 ， 读 操作 将 获取 





与 节点 相关 的 所 有 数据 ， 写 操作 也 将 替换 掉 节 点 的 所 有 数据 。 另 外 ， 每 一 个 节点 都 拥有 自己 
的 ACL《〈 访 问 控制 列表 ) ， 这 个 列表 规定 了 用 户 的 权限 ， 即 限定 了 特定 用 户 对 目标 节点 可 以 
执行 的 操作 。 
































(3) 临时 节点 


ZooKeeper 中 的 节点 有 两 种 ， 分 别 为 临时 节点 和 永久 节点 。 节 点 的 类 型 在 创建 时 即 被 确 
定 ， 并 且 不 能 改变 。ZooKeeperI 临 时 节点 的 生命 周期 依赖 于 创建 它们 的 会 话 。 一 旦 会 话 结 
束 ， 临 时 节点 将 被 自动 删除 ， 当 然 也 可 以 手动 删除 。 另 外 ， 需 要 注意 的 是 ，ZooKeeper 的 临 
时 节点 不 允许 拥有 子 节点 。 相 反 ， 永 和 久 节点 的 生命 周期 不 依赖 于 会 话 ， 并 且 只 有 在 客户 端 显 
示 执 行 删除 操作 的 时 候 ， 它 们 才 被 删除 。 




















(4) 顺序 节点 《唯一 性 保证 ) 




















当 创建 Znode 的 时 候 ， 用 户 可 以 请 求 在 ZooKeeper 的 路 径 结 尾 添加 一 个 递增 的 计数 。 这 个 
计数 对 于 此 节点 的 父 节点 来 说 是 唯一 的 ， 它 的 格式 为 <%010d”(10 位 数字 ， 没 有 数值 的 数据 
位 用 0 填充 ， 例 如 0000000001) 。 当 计数 值 大 于 232 -1 时 ， 计 数 器 将 会 溢出 。 























2.ZooKeeper 中 的 时 间 





ZooKeeper 中 有 多 种 记录 时 间 的 形式 ， 其 中 包括 如 下 几 个 主要 属性 : 





(1) Zxid 





致使 ZooKeeper 节 点 状态 改变 的 每 一 个 操作 都 将 使 节点 接收 到 一 个 xid 格 式 的 时 间 惟 ， 并 
且 这 个 时 间 戳 是 全 局 有 序 的 。 也 就 是 说 ， 每 一 个 对 节点 的 改变 都 将 产生 一 个 唯一 的 xid。 如 
果 zxid1 的 值 小 于 zxid2 的 值 ， 那 么 zxid1 所 对 应 的 事件 发 生 在 zxid2 所 对 应 的 事件 之 前 。 实 际 
上 ，ZooKeeper 的 每 个 节点 维护 着 三 个 zxid 值 ， 分 别 为 : cZxid、mZxid 和 pZxid。cZxid 是 节点 
的 创建 时 间 所 对 应 的 Zxid 格 式 时 间 戳 ，mZxid 是 节点 的 修改 时 间 所 对 应 的 Zxid 格 式 时 间 戳 。 




















(2) 版 本 号 





对 节点 的 每 一 个 操作 都 将 致使 这 个 节点 的 版 本 号 增加 。 每 个 节点 维护 着 三 个 版 本 号 ， 它 
们 分 别 为 : version〈 节 点 数据 版 本 号 ) 、cversion 〈 子 节点 版 本 号 ) . avevsion 〈 节 点 所 拥有 
的 ACL 的 版 本 号 ) 。 


3. 节 点 属性 结构 





通过 上 面 的 介绍 ， 我 们 可 以 了 解 到 ， 一 个 节点 自身 拥有 表示 其 状态 的 许多 
15-4 给 出 了 详细 的 介绍 : 

















表 15-4 ZooKeeper 节点 属性 












节点 被 创建 的 Zxid 值 





mtime AY FS aici fa] 


修改 的 版 本 有 号 





vesion 














cversion 拥有 的 子 节 点 被 修改 的 戏 本 号 

aversion 点 的 ACL 被 修改 的 版 本 号 

emphemeralOwner 和 如果 此 节点 为 临时 节点 ， 那 么 它 的 值 为 这 个 节点 拥有 者 的 会 话 ID， 否 则 ， 它 的 值 为 0 
dataLength 节点 数据 域 的 长 度 








numChildren 


有 的 子 节点 个 数 


15.4.2 ”ZooKeeper 会 话 及 状态 


ZooKeeper 客 户 端 通过 句柄 为 ZooKeeper 服 务 建立 一 个 会 话 。 这 个 会 话 一 旦 被 创建 ， 句 
柄 将 以 CONNECTING 状 态 开始 启动 。 客 户 端 将 尝试 连接 到 其 中 一 个 ZooKeeper 服 务 器 ， 如 果 
连接 成 功 ， 它 的 状态 将 变 为 CONNECTED。 在 一 般 情况 下 只 有 上 述 这 两 种 状态 。 如 果 一 个 可 
恢复 的 错误 发 生 ， 比 如 会 话 终结 或 认证 失败 ， 或 者 应 用 程序 明确 地 关闭 了 句柄 ， 句 柄 将 会 转 
入 关闭 状态 。 



































ZooKeeper 的 状态 转换 如 图 15-7 所 示 : 





START 


会 话 开始 ， sen 立 许 接 


许 接 成 功 一 一 > 
< 一 断 开 许 接 一 一 一 


调用 clase0) 操 和 作 







Cre 调用 clase 操作 
iNi k 会 话 超时 sse 


CLOSED 






END 


图 15-7 ZooKeeper 状 态 转换 图 














为 了 创建 一 个 客户 端 会 话 ， 应 用 程序 必须 提供 一 个 由 主机 〈IP 或 主机 名 ) 和 端口 所 组 成 
的 连接 字符 串 ， 这 个 字符 串 标识 了 要 连接 的 目标 主机 及 主机 端口 。ZooKeeper 客 户 端 将 选择 
服务 器 列表 中 的 任意 一 个 服务 器 并 尝试 连接 。 如 果 连 接 失 败 ， 那 么 客户 端 将 自动 尝试 连接 服 
务 列表 中 的 其 他 服务 器 ， 直 到 连接 成 功 。 












































15.4.3 ZooKeeper watches 


ZooKeeper 可 以 为 所 有 的 读 操 作 设置 watch， 这 些 读 操作 包括 : exists () 、 
getChildren () 以 及 getData O 。watch 事 件 是 一 次 性 的 触发 器 ， 当 watch 的 对 象 状 态 发 生 改 
变 时 ， 将 会 触发 此 对 象 上 所 设置 的 wath 对 应 的 事件 。 





























在 使 用 watch 时 需要 注意 ，watch 是 一 次 性 触发 器 ， 并 且 只 有 在 数据 发 生 改变 时 ，watch 
事件 才 会 被 发 送 给 客户 端 。 例 如 : 如 果 一 个 客户 端 进行 了 getData (“/model”, true) 操作 ， 
并 且 之 后 “/zmode1” 的 数据 被 改变 或 删除 了 ， 那 么 客户 端 将 获得 一 个 关于 “/zmode1” 的 事件 。 如 
果 /znode1 再 次 改变 ， 那 么 将 不 再 有 watch 事 件 发 送 给 客户 端 ， 除 非 客户 端 为 另 一 个 读 操作 重 
新 设置 了 一 个 watch。 














watch 事 件 将 被 异步 地 发 送 给 客户 端 ， 并 且 ZooKeeper 为 watch 机 制 提供 了 有 序 的 一 致 性 
保证 。 理 论 上 ， 客 户 端 接 收 watch 事 件 的 时 间 要 快 于 其 看 到 watch 对 象 状态 变化 的 时 间 。 





ZooKeeper 所 管理 的 watch 可 以 分 为 两 类 : 一 类 是 数据 watch (data watches) ; 一 类 是 子 
watch (child watches) 。getData © 和 exists O 负责 设置 数据 watch, getChildren O 负责 设 
置 孩子 watch。 我 们 可 以 通过 操作 返回 的 数据 来 设置 不 同 的 watch。getData O 和 exists O 
返回 关于 节点 数据 的 信息 ，getChildren O 返回 孩子 列表 。 因 此 ，setData O 将 触发 设置 了 
数据 watch 的 对 应 事件 。 一 个 成 功 的 create O 操作 将 触发 Znode 的 数据 watch， 以 及 孩子 
watch。 一 个 成 功 的 delete〈) 操作 将 触发 数据 watch 和 孩子 watch， 因 为 Znode 被 删除 的 时 
候 ， 它 的 child watch 也 将 被 删除 。 


watch 由 客户 端 所 连接 的 ZooKeeper 服 务 器 在 本 地 维护 ， 因 此 watch 可 以 非常 容易 地 设 
置 、 管 理 和 分 派 。 当 客户 端 连 接 到 一 个 新 的 服务 器 上 时 ， 任 何 的 会 话 事件 都 将 可 能 触发 
watch。 另 外 ， 当 从 服务 器 断 开 连接 的 时 候 ，watch 将 不 会 被 接收 。 但 是 ， 当 一 个 客户 端 重新 
建立 连接 的 时 候 ， 任 何 先前 注册 过 的 watch 都 会 被 重新 注册 。 








15.4.4 ZooKeeper ACL 











ZooKeeper 使 用 ACL 来 对 Znode 进 行 访问 控制 。ACL 的 实现 和 UNIX 文 件 访问 许可 非常 相 
似 : 它 使 用 许可 位 来 对 一 个 节点 的 不 同 操作 进行 允许 或 禁止 的 权限 控制 。 但 是 ， 和 标准 的 
UNIX 许 可 不 同 的 是 ，ZooKeeper 节 点 有 user (文件 的 拥有 者 )、group 和 world 三 种 标准 模 
式 ， 并 且 没 有 节点 所 有 者 的 概念 。 
































需要 注意 的 是 ， 一 个 ACL 和 一 个 ZooKeeper 节 点 相对 应 。 并 且 ， 父 节点 的 ACL 与 子 节点 
的 ACL 是 相互 独立 的 。 也 就 是 说 ，ACL 不 能 被 子 节点 所 继承 ， 父 节点 所 拥有 的 权限 与 子 节点 
所 拥有 的 权限 没有 任何 关系 。 





表 15-5 为 访问 控制 列表 所 规定 的 权限 。 


表 15-5 ACL 权限 
权 M 权限 描述 





























CREATE (0E) | 

READ (ik) | T BURRA H ANAT TA, 
WRITE (和 写 ) | p J 

DELETE ( | g 


ADMIN (管理 员 )》 














ZooKeeper ACL 的 使 用 依赖 于 验证 ， 它 支持 如 下 几 种 验证 模式 : 




















world: 代表 某 一 特定 的 用 户 〈 客 户 端 ) 。 














auth: 代表 任何 已 经 通过 验证 的 用 户 《〈 客 户 端 ) 。 

















digest: 通过 用 户 名 密码 进行 验证 。 











ip: 通过 客户 端 了 了 地 址 进行 验证 。 








当 会 话 建立 的 时 候 ， 客 户 端 将 会 进行 自我 验证 。 

















另外 ，ZooKeeper Java API 支 持 三 种 标准 用 户 权限 ， 它 们 分 别 为 ; 
= 


ZO00_OPEN_ACL_UNSAFE; 
ZO00_READ_ACL_UNSAFE; 
ZO00_CREATOR_ALL_ACL; 


————~>E7X<&&=—~a>sa6>x TT X—m——_z_—i———C—~——_{ | 

ZOO_OPEN_ACL _UNSAFE 对 于 所 有 的 ACL 来 说 都 是 完全 开放 的 : 任何 应 用 程序 可 以 在 
节点 上 执行 任何 操作 ， 比 如 创建 、 列 出 并 删除 子 节点 。ZOO_READ_ACL_UNSAFE 对 于 任意 
的 应 用 程序 来 说 ， 仅 仅 具 有 读 权限 。ZOO_CREATOR_ALL_ACL 授 予 节点 创建 者 所 有 的 权 
限 。 需 要 注意 的 是 ， 在 设置 此 权限 之 前 ， 创 建 者 必须 已 经 通过 了 服务 器 的 认证 。 












































15.4.5 ”ZooKeeper 的 一 致 性 保证 








ZooKeeper 是 一 种 高 性 能 、 可 扩展 的 服务 。ZooKeeper 的 读 写 速 度 非常 快 ， 并 且 读 的 速 
度 要 比 写 更 快 。 另 外 ， 在 进行 读 操作 的 时 候 ，ZooKeeper 依 然 能 够 为 旧 的 数据 提供 服务 。 这 
些 都 是 由 ZooKeeper 所 提供 的 一 致 性 保证 的 ， 它 具有 如 下 特点 : 





(1) 顺序 一 致 性 

客户 端的 更 新 顺序 与 它们 被 发 送 的 顺序 相 一 致 。 

(2) 原子 性 

更 新 操作 要 么 成 功 要 么 失败 ， 没 有 第 三 种 结果 。 

(3) 单 系统 镜像 

无 论 客户 端 连 接 到 哪 一 个 服务 器 ， 他 将 看 到 相同 的 ZooKeeper 视 图 。 


(4) 可 靠 性 











一 旦 一 个 更 新 操作 被 应 用 ， 那 么 在 客户 端 再 次 更 新 它 之 前 ， 其 值 将 不 会 改变 。 这 会 保证 
产生 下 面 两 种 结果 : 











如 果 客 户 端 成 功 地 获得 了 正确 的 返回 代码 ， 那 么 说 明 更 新 已 经 成 功 。 如 果 不 能 够 获得 返 
回 代码 〈 由 于 通信 错误 、 超 时 等 原因 ) ， 那 么 客户 端 将 不 知道 更 新 操作 是 否 生 








2 


当 故 障 恢复 的 时 候 ， 任 何 客户 端 能 够 看 到 的 执行 成 功 的 更 新 操作 将 不 会 回 滚 。 


(5) 实时 性 








在 特定 的 一 段 时 间 内 ， 客 户 端 看 到 的 系统 需要 被 保证 是 实时 的 《在 十 几 秒 的 时 间 里 ) 。 
在 此 时 间 段 内 ， 任 何 系统 的 改变 将 被 客户 端 看 到 ， 或 者 被 客户 端 侦 测 到 。 





这 些 一 致 性 得 到 保证 后 ，ZooKeeper 更 高 级 功能 的 设计 与 实现 将 会 变 得 非常 容易 ， 例 
如 : leader 选 举 、 队 列 ， 以 及 可 撤销 锁 等 机 制 的 实现 。 


























15.5 ”使 用 ZooKeeper 进 行 Leader 选 举 





ZooKeeper 需 要 在 所 有 的 服务 〈 可 以 理解 为 服务 器 ) 中 选举 出 一 个 Leader， 然 后 让 这 个 
Leader 来 负责 管理 集群 。 此 时 ， 集 群 中 的 其 他 服务 器 则 成 为 了 此 Leader 的 Follower。 并 且 ， 
当 Leader 出 现 故 障 的 时 候 ，ZooKeeper 要 能 够 快速 地 在 Folower 中 选举 出 下 一 个 Leader。 这 就 
是 ZooKeeper 的 Leader 机 制 ， 下 面 我 们 将 简单 介绍 如 何 使 用 ZooKeeper 实 现 Leader 选 举 


(Leader Election) 。 



































此 操作 实现 的 核心 思想 是 : 首先 创建 一 个 EBPHEMERAL 目录 节点 ， 例 如 "election"。 然 
后 每 一 个 ZooKeeper 服 务 器 在 此 目录 下 创建 一 个 SEQUENCEIEPHEMERAL 类 型 的 节点 ， 例 
如 “/election/n ”。 在 SEQUENCE 标志 下 ，ZooKeeper 将 自动 地 为 每 一 个 ZooKeeper 服 务 器 分 
配 一 个 比 前 面 所 分 配 的 序号 要 大 的 序号 。 此 时 创建 节点 的 ZooKeeper 服 务 器 中 拥有 最 小 编号 
的 服务 器 将 成 为 Leader。 











在 实际 的 操作 中 ， 还 需要 保证 ， 当 Leader 服 务 器 发 生 故 障 的 时 候 ， 系 统 能 够 快速 地 选 出 
下 一 个 ZooKeeper 服 务 器 作为 Leader。 一 个 简单 的 解决 方案 是 ， 让 所 有 的 Follower 监 视 leader 
所 对 应 的 节点 。 当 Leader 发 生 故障 时 ，Leader 所 对 应 的 临时 节点 会 被 自动 删除 ， 此 操作 将 会 
触发 所 有 监视 Leader 的 服务 器 的 watch。 这 样 这 些 服 务 器 就 会 收 到 Leader 故 障 的 消息 ， 进 而 
进行 下 一 次 的 Leader 选 举 操作 。 但 是 ， 这 种 操作 将 会 导致 "从 众 效应 ”的 发 生 ， 尤 其 是 当 集群 
中 服务 器 众多 并 且 带 宽 延 迟 比较 大 的 时 候 更 为 明显 。 




















在 ZooKeeper 中 ， 为 了 避免 从 众 效 应 的 发 生 ， 它 是 这 样 来 实现 的 : 每 一 个 Follower 为 
Follower 集 群 中 对 应 着 比 自己 节点 序号 小 的 节点 中 x 序 号 最 大 的 节点 设置 一 个 watch。 只 有 当 
Follower 所 设置 的 watch 被 触发 时 ， 它 才 进 行 Leader 选 举 操作 ， 一 般 情况 下 它 将 成 为 集群 中 的 
下 一 个 Leader。 很 明显 ， 此 Leader 选 举 操 作 的 速度 是 很 快 的 。 因 为 每 一 次 Leader 选 举 几乎 只 
涉及 单个 Follower 的 操作 。 














15.6 ”ZooKeeper 锁 服务 


在 ZooKeeper 中 ， 完 全 分 布 的 锁 是 全 局 同步 的 。 也 就 是 说 ， 在 同一 时 刻 ， 不 会 有 两 个 不 
同 的 客户 端 认 为 他 们 持 有 了 相同 的 锁 。 这 一 节 我 们 将 向 大 家 介绍 在 ZooKeeper 中 的 各 种 锁 机 
制 是 如 何 实现 的 。 











15.6.1 ”ZooKeeper 中 的 锁 机 制 


ZooKeeper 将 按照 如 下 方式 实现 加 锁 的 操作 : 














1) ZooKeeper 调 用 create() 方法 来 创建 一 个 路 径 格 式 为 *locknode_/lock”* 的 节点 ， 此 
节点 类 型 为 Sequence GES) 和 ephemeral 临时)。 也 就 是 说 ， 创 建 的 节点 为 临时 节点 ， 并 
且 所 有 的 节点 连续 编号 ， 即 为 “lock 六 的 格式 。 




















2) 在 创建 的 锁 节 点 上 调用 getChildren() 方法 ， 以 获取 锁 目 录 下 的 最 小 编号 节点 ， 并 且 
不 设置 watch。 











3) 步骤 2 中 获取 的 节点 恰好 是 步骤 1 中 客户 端 创建 的 节点 ， 那 么 此 客户 端 会 获得 该 种 类 
型 的 锁 ， 然 后 退出 操作 。 

















4) 客户 端 在 锁 目录 上 调用 exists O 方法 ， 并 且 设置 watch 来 监视 锁 目 录 下 序号 相对 自己 
次 小 的 连续 临时 节点 的 状态 。 











5) 如 果 监 视 节点 状态 发 生变 化 ， 则 跳 转 到 步骤 2， 继 续 进行 后 续 的 操作 ， 直 到 退出 锁 竞 





争 。 


ZooKeeper 的 解锁 操作 非常 简单 ， 客 户 端 只 需要 将 加 锁 操 作 步 骤 1 中 创建 的 临时 节点 删除 
即 可 。 








注意 D 一 个 客户 端 解锁 之 后 ， 将 只 可 能 有 一 个 客户 端 获 得 锁 ， 因 此 每 一 个 临时 的 连 
续 节点 对 应 着 一 个 客户 端 ， 并 且 节 点 之 间 没 有 重 倒 ;2) 在 ZooKeeper 的 锁 机 制 中 没有 轮 询 和 



































超时 。ZooKeeper 中 锁 机 制 流程 图 如 图 15-8 所 示 。 








客户 玄 调 用 crcatcD 创 建 
发 咎 变化 一 一 一 一 一 >|“_lacknade_Nack-" 主 统 


ARNS 





ERR get Children) 
HH, WE RE Bly 


BRE FE 
编号 节点 





客户 调用 cxists() 方 法 ， 
媳 视 镇 目录 比 自 己 小 一 | 再 
个 的 连续 临时 节点 





当前 最 小 编号 节点 是 否 为 
自己 所 创建 的 节点 





获得 镇 


图 15-8 ”ZooKeeper 锁 机 制 流程 图 


15.6.2 ”ZooKeeper 提 供 的 一 个 写 锁 的 实现 


在 ZooKeeper 安 装 目录 的 recipes 目 录 下 有 一 个 ZooKeeper 分 布 式 写 锁 的 实现 方式 
(ZooKeeper_Dir/sre/recpies/lockH 3) 。 











a 





P， 加 锁 的 实现 如 代码 清单 15-7 所 示 。 





代码 清单 15-7 lock 


二 一 

1 public synchronized boolean lock () throws KeeperException, 
InterruptedException{ 

2 if (isClosed © ) { 

3 return false; 

4} 

5 ensurePathExists (dir) ; 

6 

7 return (Boolean) retryOperation (zop) ; 

8} 


一 

















在 加 锁 操 作 的 实现 中 ， 首 先 调用 isclosed O 方法 来 检查 锁 的 状态 ， 如 果 没 有 获得 锁 ， 则 
调用 ensurePathExists O 方法 来 设置 一 个 监视 器 。 这 正如 我 们 在 15.6.1 节 所 描述 的 步骤 。 
































解锁 的 实现 如 代码 清单 15-8 所 示 。 


代码 清单 15-8 unlock 


[= | 
public synchronized void unlock () throws RuntimeException{ 


if (! isClosed () &&id! =null) { 
try{ 


DUBWNE 


ZooKeeperOperation zopdel=new ZooKeeperOperation () { 
7 public boolean execute () throws KeeperException, 
InterruptedException 
8{ 
9 zookeeper.delete (id, -1); 
10 return Boolean.TRUE; 
11} 


12}; 

13 zopdel.execute () ; 

14}catch (InterruptedException e) { 

15 LOG.warn ("Caught: "+e, e); 

16//set that we have been interrupted. 

17 Thread.currentThread () .interrupt O) ; 

18}catch (KeeperException.NoNodeException e) { 

19 

20}catch (KeeperException e) { 

21 LOG.warn ("Caught: "+e, e); 

22 throw (RuntimeException) new 
RuntimeException (e.getMessage () ) . 

23 initCause (e) ; 

24} 

25 finally{ 

26 if (callback! =null) { 

27 callback.lockReleased () ; 

28} 

29 id=null; 

30} 

31} 

32} 


—_—_—_—_—_—_—__—_O08CO0338O0O0OvWwW0O Oooo =i 





解锁 的 操作 主要 是 通过 代码 中 的 第 6 一 12 行 来 实现 的 ， 只 需要 删除 锁 对 应 的 临时 节点 即 





可 。 


注意 ， 当 此 操作 出 现 故 障 的 时 候 ， 我 们 不 需要 重复 这 个 解锁 操作 。 另 外 ， 在 不 能 重新 连 
接 的 时 候 ， 我 们 也 不 需要 做 任何 处 理 ， 因 为 ZooKeeper 会 自动 地 删除 临时 节点 ， 并 且 在 服务 
器 出 现 故障 的 时 候 ， 此 临时 节点 也 会 随 着 服务 的 结束 而 自动 删除 。 



























































15.7 ”使 用 ZooKeeper 创 建 应 用 程序 


























本 节 将 首先 介绍 如 何 使 用 Eclipse 开发 Zookeeper 应 用 程序 ， 然 后 通过 一 个 实例 让 大 家 熟悉 
Zookeeper 的 简单 开发 。 






































15.7.1 ”使 用 Eclipse 开发 ZooKeeper 应 用 程序 











ZooKeeper 客 户 端 支持 两 种 语言 的 编程 ， 包 括 Java 和 C， 我 们 以 Java 为 例 介绍 如 何 进行 程 
序 的 开发 。 为 了 方便 编写 程序 ， 一 般 习 惯 于 使 用 [DE。 对 于 Java 程 序 来 说 ， 首 选 莫 过 于 
Eclipse， 下 面 我 们 介绍 如 何 使 用 Eclipse 进 行 ZooKeeper 程 序 的 开发 。 





























首先 在 Eclipse 创 建 一 个 工程 ， 我 们 命名 为 ZooKeeper， 如 图 15-9 所 示 。 





| @sre 
> mA JRE System Library 








Problems| @ Javadoc {i Decaration| B Console I feo 


No consoles to display at this time 








图 15-9 创建 ZooKeeper 应 用 程序 








在 创建 完工 程 之 后 ， 我 们 还 不 能 使 用 ZooKeeper 的 类 库 ， 因 此 需要 导入 ZooKeeper 的 jar 
包 。 具 体操 作为 : 选中 工程 一 右键 ， 选 择 Properties 一 Java Build Path 一 Libraries 一 Add 
External JARs 一 定位 到 ZooKeeper-3.4.3 安 装 目录 ， 选 择 根 目 录 下 的 zookeeper-3.4.3j ar 文件 
一 OK。 如 图 15-10 所 示 。 
































Java Build Path 
fond Or » pesource 






a Source Projects | MiLibraries | 4) Order and Export 
a : Builders 
Java Build Path JAR: siders onthe build path 
zs > Java Code Style em Library [Java5E4 .是 AR 
Bo 


= > Java Compiler 
> Wh JRE System Library [190 p u 


Add Variabie. 





Ade Library, 
Add Class Folder 
Wexternal Class Folder 







Name = sie Modified 


search 
© Recently Used 





图 15-10 添加 ZooKeeper 的 Jar 包 


























添加 完 ZooKeeper 的 Jar 包 之 后 ， 可 以 创建 ZooKeeper 应 用 程序 并 引用 ZooKeeper 提 供 的 
类 库 了 。 该 Jar 文 件 所 包含 的 Package 如 下 图 15-11 所 示 。 





vB zockeeper-3.4 3 jar: /home/hadoon/hadoce-t. 
* Borg apache jute 
> B ofg.apache jute, compiler 
> ® org_apachejute.compiler.generated 
> Borg apache 2ookeeper 
> Borg. spache,zookeeper.client 
> Ẹ org.apache.zookeeper.common 
> B orgapache.zookeeper data 
» § org-apache.zookeeper.jmx 
> §B org-apache.zookeeper.proto 
> E org.apade.zookeeperserve 
> 而 orgapache.rookeeper.server sgh 
> iB org apache rookeeper.server persistence 
> E org .apache Zookeeper server quorum 
> {8 org-spache.zookeeper-.server-quorum.flexibte 
> Borg apache Zookeeper server upgrade 
> Borg apache zockeeper. server ute 
> ® org.spache.zookeepertan 
> Borg apache rookeeper. ver sion 
> i org_epache.zookeeper_version util 
> BB METAANF 
[D UCENSE txt 
B overdewhtmi 





图 15-11 ZooKeeper #4 Package 





在 所 有 的 包 中 ，org.apache.zookeeper 和 org.apache.zookeeperdata 是 最 基本 的 ， 一 般 客户 
端 应 用 程序 的 编写 都 要 用 到 这 两 个 包 所 提供 的 类 ， 其 他 包 相 对 使 用 的 频率 要 小 。 在 
org.apache.zookeeper 中 提供 了 ZooKeeper 客 户 端 连接 服务 器 的 实例 。 一 个 最 简单 的 
ZooKeeper 实 例 初始 化 函数 包括 三 个 参数 : public ZooKeeper (String connectString, int 
sessionTimeout, Watcher watcher) 。 这 里 ，connectString 为 客户 端 连接 服务 器 字符 串 ， 格 式 



























































it 








为 “IP/Hostname: Port*， 例 如 “zoo1: 2181”，sessionTimeout 设 置 的 是 会 话 超时 时 间 ， 


watcher 设 置 的 是 监视 器 ， 该 监视 器 通过 org.apache.zookeeper Watcher 进 行 初始 化 。 











-个 简单 的 应 用 程序 如 代码 清单 15-6 所 示 ， 下 面 给 出 一 个 综合 的 例子 供 大 家 参考 。 























15.7.2 ”应 用 程序 实例 











此 节 将 通过 一 组 简单 的 ZooKeeper 应 用 程序 实例 来 向 大 家 展示 ZooKeeper 的 某 些 功能 。 











这 一 节 所 实现 的 主要 功能 包括 : 创建 组 、 加 入 组 、 列 出 组 成 员 ， 以 及 删除 组 。 


my 


已 


























为 了 避免 某 些 重复 性 的 操作 ， 我 们 创建 了 一 个 本 应 用 程序 的 基 类 : ZooKeeperInstance。 





主要 实现 了 Zookeeper 对 象 的 实例 化 操作 。 详 见 代码 清单 15-9。 


代码 清单 15-9 ZooKeeperInstance 


二 一 


package cn.edu.ruc.cloudcomputing.book.chapter15; 
import java.io.IOException; 
import org.apache.zookeeper.WatchedEvent; 


import org.apache.zookeeper.Watcher; 
import org.apache.zookeeper.ZooKeeper; 


ODIDOBAWNE 


public class ZooKeeperInstance{ 
10// 会 话 超时 时 间 ， 设 置 为 与 系统 默认 时 间 一 臻 

11 public static final int SESSION_TIMEOUT=30000; 
12 

13// 创 建 2ooKeeper 实 例 

14 ZooKeeper zk; 

LS 

16/ /创建 Watcher 实 例 

17 Watcher wh=new Watcher () { 

18 public void process (WatchedEvent event) { 
19 System.out.println (event.toString O ); 
20} 


23// 初 始 化 zookeeper 实 例 
24 public void createZKInstance () throws IOException{ 
25 zk=new ZooKeeper ("localhost: 2181", 


ZooKeeperInstance.SESSION_ 


TIMEOUT, this.wh); 

26} 

27 

28// 关 闭 zK 实 例 

29 public void ZKclose () throws InterruptedException{ 


30 zk.close () ; 
31} 
32}, 


een 
在 ZooKeeper 中 的 组 机 制 也 同样 是 通过 ZooKeeper 节 点 来 实现 的 。 一 个 Znode 为 一 个 目 
录 ， 即 代表 着 一 个 组 。 这 里 我 们 创建 了 一 个 名 为 "ZKGroup" 的 组 。 详 见 代码 清单 15-10。 





代码 清单 15-10 CreateGroup 


| 
package cn.edu.ruc.cloudcomputing.book.chapter15; 


import java.io.IOException; 


1 
2 
3 
4 
5 import org.apache.zookeeper.CreateMode; 
6 import org.apache.zookeeper.KeeperException; 
7 import org.apache.zookeeper.ZooDefs.Ids; 
8 

9 public class CreateGroup extends ZooKeeperInstance{ 

10 

11// 创 建 组 

12// 参 数 : groupPath 

13 public void createPNode (String groupPath) throws 
KeeperException, 

InterruptedException{ 

14// 创 建 组 

15 String 
cGroupPath=zk.create (groupPath, "group".getBytes O) , Ids.OPEN_ 

ACL UNSAFE, CreateMode. PERSISTENT) ; 


16// 输 出 组 路 径 

17 System.out.println (" 创 建 的 组 路 径 为 : "+cGroupPath) ; 

18} 

19 

20 public static void main (String[]args) throws IOException, 
KeeperException, 


InterruptedException{ 

21 CreateGroup cg=new CreateGroup () ; 
22 cg.createZKInstance () ; 

23 cg.createPNode ("/ZKGroup") ; 

24 cg.ZKclose () ; 

237 

26} 


| | 


在 创建 组 操作 完成 之 后 ， 我 们 需要 将 成 员 加 入 到 组 当中 ， 也 就 是 将 节点 加 入 到 组 节点 的 
目录 下 ， 成 为 其 子 节点 。 在 创建 节点 之 前 ， 首 先 需要 调用 exists O 函数 来 判断 组 目录 是 否 存 
在 。 此 程序 中 创建 了 一 个 MultiJoin O 函数 ， 它 通过 一 个 计数 器 为 组 节点 创建 10 个 子 节点 。 
详 见 代 码 清单 15-11。 



































代码 清单 15-11 JoinGroup 


| 
package cn.edu.ruc.cloudcomputing.book.chapter15; 


import java.io.IOException; 


1 

2 

3 

4 

5 import org.apache.zookeeper.CreateMode; 

6 import org.apache.zookeeper.KeeperException; 
7 import org.apache.zookeeper.ZooDefs.Ids; 

8 


9 public class JoinGroup extends ZooKeeperInstance{ 

10// 加 入 组 操作 

11 public int Join (String groupPath, int k) throws 
KeeperException, 

InterruptedException{ 

12 String child=k+""; 

13 child="child_"+child; 


14 

15// 创 建 的 路 径 

16 String path=groupPath+"/"+child; 
17// 检 查 组 是 否 存在 

18 if (zk.exists (groupPath, true) ! =null) { 
19// 如 果 存在 ， 加 入 组 

20 zk.create (path, child.getBytes () , Ids.OPEN ACL UNSAFE, 
CreateMode.PERSISTENT) ; 

21 return 1; 

22} 

23 else{ 

24 System.out.println ("组 不 存在 ! ") ; 

25 return 0; 


26} 
27} 

28 
29// 加 入 组 操作 


30 public void MultiJoin () throws KeeperException, 
InterruptedException{ 

31 for (int i=0; i<10; i++) { 

32 int k=Join ("/ZKGroup", i); 


33// 如 果 组 不 存在 则 退出 

34 if (0==k) 

35 System.exit (1); 

36} 

37} 

38 public static void main (String[]args) throws IOException, 
KeeperException, 

InterruptedException{ 

39 JoinGroup jg=new JoinGroup () ; 

40 jg.createZKInstance () ; 

41 jg.MultiJoin O ; 

42 jg.ZKclose () ; 

43} 

44} 


eee 
在 加 入 组 操作 完成 之 后 ， 我 们 通过 getChildren O 函数 来 列 出 所 有 组 的 成 员 〈 即 获取 组 
目录 下 的 所 有 孩子 节点 ) 。 详 见 代码 清单 1$-12: 
代码 清单 15-12 ListMembers 


package cn.edu.ruc.cloudcomputing.book.chapter15; 


import java.io.IOException; 
import java.util.List; 


import org.apache.zookeeper.KeeperException; 


OIA BWNHE 


public class ListMembers extends ZooKeeperInstance{ 

9 public void list (String groupPath) throws KeeperException, 
InterruptedException{ 

10// 获 取 所 有 子 节点 

11 List<String>children=zk.getChildren (groupPath, false); 

12 if (children.isEmpty © ) { 

13 System.out.printin (" 组 "+groupPath+" 中 没有 组 成 员 存在 ! ") ; 

14 System.exit (1); 

15} 

16 for (String child: children) 

17 System.out.printin (child) ; 

18} 

19 

20 public static void main (String[]args) throws IOException, 
KeeperException, 

InterruptedException{ 

21 ListMembers lm=new ListMembers () ; 





22 lm.createZKInstance () ; 
23 lm.list ("/ZKGroup") ; 
24} 

25} 


SIIM 

在 执行 删除 组 操作 时 ， 我 们 首先 需要 删除 组 目录 下 的 所 有 成 员 ， 当 组 目录 空 时 ， 再 将 组 
目录 删除 。 那 么 ， 这 过 程 中 首先 就 需要 调用 getChildren O 函数 ， 获 取 组 目录 的 所 有 成 员 ， 
然后 调用 delete O 函数 将 其 一 一 删除 。 最 后 删除 组 目录 。 详 见 代码 清单 15-13。 









































代码 清单 15-13 DelGroup 


rr， 
package cn.edu.ruc.cloudcomputing.book.chapter15; 


import java.io.IOException; 
import java.util.List; 


import org.apache.zookeeper.KeeperException; 


OIAUKRWNE 


public class DelGroup extends ZooKeeperInstance{ 

9publicvoiddelete(@tringgroupPa 
ththrowsKeeperException, 

InterruptedException{ 

10 List<String>children=zk.getChildren (groupPath, false) ; 

11// 如 果 不 空 ， 则 进行 删除 操作 

12 if (! children.isEmpty © ) { 

13// 删 除 所 有 子 节点 

14 for (String child: children) 

15 zk.delete (groupPath+"/"+child，-1) ; 

16} 

17// 删 除 组 目录 节点 

18 zk.delete (groupPath, -1); 

19} 

20 

21 public static void main (String args[]) throws IOException, 
KeeperException, 

InterruptedException{ 

22 DelGroup dg=new DelGroup () ; 

23 dg.createZKInstance () ; 

24 dg.delete ("/ZKGroup") ; 

25 dg.ZKclose () ; 

26} 

27} 


在 


限于 篇 幅 ， 本 章 只 介绍 了 关于 Zookeeper 的 一 些 基本 知识 ， 希 望 大 家 通过 本 章 的 学 习 能 够 
对 ZooKeeper 的 机 制 有 一 个 全 面 的 了 解 。 另 外 ， 和 希望 大 家 能 够 亲自 动手 编写 Zooleeper 程 序 ， 
这 样 可 以 促进 对 ZooKeeper 更 深入 的 了 解 。 








15.8 BooKeeper 


BooKeeper 具 有 副本 的 功能 ， 目 的 是 提供 可 靠 的 日 志 记录 。 在 BooKeeper 中 ， 服 务 器 被 
称 为 账本 〈Bookies) ， 在 账本 之 中 有 不 同 的 账户 〈Ledgers) ， 每 一 个 账户 由 一 条 条 的 记录 
(Entry ) 组 成 。 如 果 使 用 普通 的 磁盘 存储 日 志 数 据 ， 那 么 日 志 数据 可 能 遭 到 破坏 ， 当 磁盘 发 
生 故 障 的 时 候 ， 日 志 也 可 能 被 丢失 。BooKeeper 为 每 一 份 日 志 提供 了 分 布 式 的 存储 ， 并 且 采 
了 大 多 数 〈quorum ， 相 对 于 全 体 ) 的 概念 ， 也 就 是 说 ， 只 要 集群 中 的 大 多 数 机 器 可 用 ， 那 
么 该 日 志 一 直 有 效 。 










































































BooKeeper 通 过 客户 端 进行 操作 ， 客 户 端 可 以 对 BooKeeper 进 行 添加 账户 、 打 开 账 户 、 
添加 账户 记录 、 读 取 账 户 记录 等 操作 。 另 外 ，BooKeeper 的 服务 依赖 于 ZooKeeper， 可 以 说 
BooKeeper 是 依赖 于 ZooKeeper 的 一 致 性 及 分 布 式 的 特点 在 其 之 上 提供 了 另外 一 种 可 靠 性 服 
务 。 如 图 15-12 为 BooKeeper 的 架构 。 














从 上 图 中 可 以 看 出 ，BooKeeper 中 总 共 包 含 四 类 角色 ， 分 别 为 : 账本 (Bookie〉、 账 户 
(Ledger) 、 客 户 端 (BooKeeper Client) 以 及 元 数据 存储 服务 (Metadata Storage 
Service) 。 下 面 我 们 来 简单 介绍 这 四 类 角色 的 功能 。 


























账本 (Bookie) : 账本 是 BookKeeper 的 存储 服务 器 ， 它 存储 的 是 一 个 个 的 账本 ， 可 以 将 
账本 理解 为 一 个 节点 。 在 一 个 BookKeeper 系 统 中 存在 有 多 个 账本 节点) ， 每 个 账户 被 不 同 
的 账本 所 存储 。 若 要 写 一 条 记录 到 指定 的 账户 中 ， 该 记录 将 被 写 到 维护 该 账户 的 所 有 账本 节 
点 中 。 为 了 提高 系统 的 性 能 ， 这 条 记录 并 不 是 真正 地 被 写 入 到 所 有 节点 中 ， 而 是 选择 集群 的 
一 个 大 多 数 集 进 行 存储 。 该 系统 独 有 的 特性 使 得 BookKeeper 系 统 有 良好 的 扩展 性 。 即 ， 我 们 
可 以 通过 简单 地 添加 机 器 节点 的 方法 提高 系统 的 容量 。 
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图 15-12 BooKeeper 架 构 


账户 (Ledger) : 账户 中 存储 的 是 一 系列 的 记录 (Entry) ， 每 一 条 记录 包含 一 定 的 字 
段 。 记 录 通 过 写 操作 一 次 性 写 入 ， 只 能 进行 附加 操作 不 能 进行 修改 。 每 条 记录 包含 如 下 字 
段 ， 见 表 15-6。 








表 15-6 BookKeeper 记录 格式 











字 R Hi 述 

账户 号 记录 所 在 账户 的 id 

记录 号 记录 自身 的 id 

上 条 记录 号 上 一 条 存储 记录 的 id 

数据 记录 的 值 ， 由 应 用 程序 提供 








bytel) 
认证 三 bytef] 记录 其 他 字 民 的 认证 玛 信息 


当 满足 下 列 两 个 条 件 时 ， 某 条 记录 才 被 认为 是 存储 成 功 : 


1) 之 前 所 记录 的 数据 被 账本 节点 的 大 多 数 集 所 存储 ; 





2) 该 记录 被 账本 节点 的 大 多 数 集 所 存储 。 

















程序 进行 交互 ， 它 允许 应 








客户 端 (BookKeeper Client) : 客户 端 通常 与 BookKeeper 应 
程序 在 系统 上 进行 操作 ， 包 括 创建 账户 ， 写 账户 等 。 




















Fo 





元 数据 存储 服务 (Metadata Storage Service) : 元 数据 信息 存储 在 ZooKeeper 集 群 当中 
长 本 的 信息 ， 例 如 ， 账 本 由 集群 中 的 哪些 节点 进行 维护 ， 账 户 由 哪个 账本 
































它 存储 关于 账户 和 骨 
进行 维护 等 。 








应 用 程序 在 使 用 账本 的 时 候 ， 首 先 需 要 创建 一 个 账户 。 在 创建 账户 时 ， 系 统 首先 将 该 账 
本 的 Metadata 信 息 写 入 到 ZooKeeper 中 。 每 一 个 账户 在 某 一 时 刻 只 能 有 一 个 写实 例 。 在 其 它 
实例 进行 读 操作 之 前 首先 需要 将 写实 例 关 闭 。 如 果 写 操作 由 于 故障 而 未 能 正常 关闭 ， 那 么 下 
一 个 尝试 打开 账户 的 实例 将 需要 首先 对 其 进行 恢复 并 正确 关闭 写 操作 。 在 进行 写 操作 时 同时 
需要 将 最 后 一 次 的 写 记 录 存 储 到 ZooKeeper 中 ， 因 此 恢复 程序 仅 需要 在 ZooKeeper 中 查看 该 
账户 所 对 应 的 最 后 一 条 写 记 录 ， 然 后 将 其 正确 地 点 写 入 到 账户 中 ， 再 正确 关闭 写 操作 。 在 

BookKeeper 中 该 恢复 程序 由 系统 自动 执行 ， 不 需要 用 户 的 参与 。 
































































































































15.9 本章 小 结 


ZooKeeper 作 为 Hadoop 项 目的 一 个 子 项 目 ， 是 Hadoop 旬 
P 的 数据 ， 如 管理 Hadoop 集 群 中 的 NameNode， 


的 状态 同步 等 。 除 此 之 外 ， 它 还 在 


和 群 管理 中 一 个 必 不 可 少 的 模块 。 





以 及 Hbase 中 的 Master 






































它 主 要 用 来 控制 集群 
Election、Server 之 间 


其 他 多 种 场合 中 发 挥 着 重要 的 作 





























本 章 介绍 了 ZooKeeper 的 基本 知识 ， 以 及 ZooKeeper 的 配置 、 使 用 和 管理 等 内 容 。 另 外 
还 深入 挖掘 了 ZooKeeper 重 要 功能 的 实现 机 制 ， 并 介绍 了 它 的 某 些 应 用 场景 。ZooKeeper 作 
为 一 个 用 于 协调 分 布 式 程序 的 服务 ， 必 将 在 更 多 的 场合 发 挥 越 来 越 重 要 的 作 
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Avro 的 C/C++ 实现 
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GenAvro (Avro IDL) 语言 
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16.1 Avro 介 绍 

















Avro 作 为 Hadoop 下 相对 独立 的 子 项 目 ， 是 一 个 数据 序列 化 的 系统 。 类 似 于 其 他 序列 化 系 


统 ，Avro 可 以 将 数据 结构 或 对 象 转化 成 便于 存储 或 传输 的 格式 ， 特 别 是 在 设计 之 初 它 可 以 





























来 支持 数据 密集 型 应 用 ， 适 合 于 大 规模 数据 的 存储 和 交换 。 总 之 ，Avro 可 以 提供 以 下 一 些 特 











性 和 功能 : 





丰富 的 数据 结构 类 型 ; 


快速 可 压缩 的 三 进 制 数据 形式 ; 


存储 持久 数据 的 文件 容器 ; 


























简单 的 动态 语言 结合 功能 。 











Avro 和 动态 语言 结合 后 ， 读 写 数据 文件 和 使 用 RPC 协 议 都 不 需要 生成 代码 了 ， 而 代码 作 

















为 一 种 可 选 的 优化 只 需要 在 静态 类 型 语言 中 实现 。 




















Avro 依 赖 于 模式 (Schema) 。Avro 数 据 的 读 / 写 操作 很 频繁 ， 而 这 些 操作 都 需要 使 用 模 


式 ， 这 样 可 减少 写 入 每 个 数据 资料 














自我 描述 方便 了 动态 脚本 语言 的 使 


当 Avro 数 据 存储 到 文 





的 开销 ， 使 得 序列 化 快速 而 又 轻巧 。 这 种 数据 及 其 模式 的 


件 中 时 ， 它 的 模式 也 随 之 存储 ， 这 样 任何 程序 都 可 以 对 文件 进行 处 











理 。 如 果 读 取 数据 时 使 











和 写 入 的 模式 都 是 已 知 的 。 


数据 编码 成 二 进 制 序列 存 


的 模式 与 写 入 数据 时 使 用 的 模式 不 同 ， 那 也 很 容易 解决 ， 因 为 读 取 
图 16-1 表 示 的 是 Avro 的 主要 作用 ， 它 将 用 户 定义 的 模式 和 具体 的 









































嵌 在 对 象 容器 文件 中 ， 假 设 用 户 定义 了 包含 学 号 、 姓 名 、 院 系 和 电 

















话 的 学 生 模 式 ， 那 么 Avro 对 其 进行 编码 后 存储 在 studentdb 文 件 中 ， 其 中 存储 数据 的 模式 放 在 
文件 头 的 元 数据 中 ， 这 样 即 使 读 取 的 模式 与 写 入 的 模式 不 同 ， 也 可 以 迅速 地 读 出 数据 ， 如 果 











另 一 个 程序 需要 获取 学 生 














的 姓名 和 


电话 ， 



































只 需 定义 包含 姓名 和 电话 的 学 生 模式 ， 然 后 用 此 模 


式 去 读 取 容器 文件 中 的 数据 即 可 。 








#i student Hi student 

(SID. name. (name.phone) 

dept-phene) d 
数据 序列 化 RLF PE An 





容器 文件 stmicnt.iih 











图 16-1 Avro 的 主要 作用 




















当 在 RPC 中 使 用 Avro 时 ， 服 务 器 和 客户 端 可 以 在 握手 连接 时 交换 模式 。 服 务 器 和 客户 端 
有 彼此 全 部 的 模式 ， 因 此 含有 相同 命名 字段 、 缺 失 字段 














多余 字段 等 信息 之 间 通 信 时 ， 需 要 
处 理 的 一 致 性 问题 就 可 以 容易 地 解决 。 如 图 16-2 所 示 ， 协 议 中 定义 了 用 于 传输 的 消息 ， 消 息 
使 用 框架 后 放 入 缓冲 区 中 进行 传输 ， 由 于 传输 的 初始 就 交换 了 各 自 的 协议 定义 ， 即 使 传输 双 
方 使 用 的 协议 不 同 ， 所 传输 的 数据 也 能 够 正确 解析 ， 具 体 过 程 将 在 后 面 介绍 。 















































































































图 16-2 RPC 使 用 Avro 























Avro 模式 是 用 JSON〈 一 种 轻 量 级 的 数据 交换 模式 ) 定义 的 ， 这 样 对 于 已 经 拥有 JSON 库 
的 语言 来 说 就 可 以 容易 地 实现 。 

















Avro 提供 与 诸如 Thrift 和 Protocol Buffers 等 系统 相似 的 功能 ， 但 是 在 一 些 基础 方面 还 是 有 
区 别 的， 主要 表现 在 以 下 几 个 方面 : 














动态 类 型 Avro 并 不 需要 与 生成 代码 、 模 式 和 数据 存放 在 一 起 ， 而 整个 数据 的 处 理 过 程 


并 不 生成 代码 、 静 态 数据 类 型 等 。 这 方便 了 数据 处 理 系 统 和 语言 的 构造 。 








未 标记 的 数据 : 因为 读 取 数 据 的 时 候 模式 是 已 知 的 ， 所 以 需要 和 数据 一 起 编码 的 类 型 信 
息 就 很 少 了 ， 这 样 序列 化 的 规模 也 就 小 了 。 



































不 需要 用 户 指定 字段 号 ， 即 使 模式 发 生 了 改变 ， 但 是 新 旧 模 式 都 是 已 知 的 ， 所 以 处 理 数 
据 时 可 以 通过 使 用 字段 名 称 来 解决 差异 问题 。 






































下 面 详细 介绍 模式 的 声明 和 Avro 的 具体 使 





16.1.1 模式 声明 











模式 声明 主要 是 定义 数据 的 类 型 ，Avro 中 的 模式 可 以 使 用 JSON 通 过 以 下 方式 表示 。 











1) JSON 字 符 串 ， 指 定 已 定义 的 类 型 。 





2) JSON 对 象 ， 其 形式 为 : 


| 
{"type": "typeName".....attributes......} 


| 














其 中 ，typeName 可 以 是 原生 的 或 衍生 的 类 型 名 称 ， 本 章 没 有 定义 的 属性 可 以 视 为 元 数 
据 ， 但 是 其 不 能 影响 序列 化 数据 的 格式 。 




















3) JSON 数 组 ， 表 示 嵌 入 类 型 的 联合 。 











声明 的 类 型 必须 是 Avro 所 支持 的 数据 类 型 ， 其 中 包括 原始 类 型 (Primitive Types) 和 复 
杂 类 型 (Complex Types) ， 下 面 分 别 介绍 它们 。 








原始 类 型 名 称 包括 以 下 几 部 分 。 

null: 没有 值 ; 

boolean: 二 进 制 值 ; 

int: 32 位 有 符号 整数 ， 

long: 64 位 有 符号 整数 ; 

float: 单 精度 GUAL) IEEE 754 浮 点 数 ; 
double: 双 精 度 64 位 )IEEE 754 浮 点 数 ; 


bytes: 8 位 无 符号 字 节 序列 ; 


string: unicode 字 符 序列 。 


原始 类 型 没有 特定 的 属性 ，3 








其 名 称 可 以 通过 类 型 来 定义 ， 如 模式 "string" 相 当 于 : 


= 
{"type": "string"} 


二 一 


Avro 支持 六 种 复杂 类 型 : 记录 (records) 、 枚 举 (enums) 、 数 组 (arrays) 、 映 射 





(maps) 、 联 合 (unions) 和 固定 型 〈fixed) ， 下 面 一 一 介绍 。 


(1) 记录 (records) 




















记录 使 型 名 称 “record" 并 且 支 持 以 下 属性 : 





name: 提供 记录 名 称 的 JSON 字 符 串 (必须 ) 。 





namespace: 限定 名 称 的 JSON 字 符 串 。 




















doc: 向 模式 使 用 者 提供 说 明 的 JSON 字 符 串 《可 选 ) 。 





aliases: 字符 串 的 JSON 数 组 ， 为 记录 提供 代替 名 称 〈 可 选 ) 。 








field: 一 个 JSON 数 组 ， 
下 属性 。 

















来 列 出 字段 〈 必 须 ) 。 每 个 字段 就 是 一 个 JSON 对 象 且 拥 有 以 


name: 提供 记录 名 称 的 JSON 字 符 串 〈 必 须 ) 。 

















“doc: 为 使 用 者 提供 字段 说 明 的 JSON 字 符 串 《可 选 ) 。 





‘type: 定义 模式 的 JSON 对 象 ， 或 者 记录 定义 的 JSON 字 符 串 〈 必 须 ) 。 























‘default: 该 字段 的 默认 值 用 于 读 取 缺 少 该 字段 的 实例 〈 可 选 ) 。 如 表 16-1 所 示 ， 人 允许 的 
值 依赖 于 字段 的 模式 类 型 。 联 合 字段 的 默认 值 对 应 于 联合 中 的 第 一 个 模式 。 字 节 和 固定 字段 
的 默认 值 是 JSON 字 符 ， 这 里 0 一 255 的 Unicode 映 射 到 0 一 255 的 8 位 无 符号 字 节 。 





corder: 指定 该 字段 如 何 影响 记录 的 排序 〈 可 选 ) 。 有 效 的 值 有 “ascending”( 默 


W) 、“descending” 或 “ignore”。 





“aliases: 字符 串 的 JSON 数 组 ， 为 该 字段 提供 可 选 的 名 称 〈 可 选 ) 。 


表 16-1 字段 默认 值 



































null null null 
boolean boolean true 
int,long integer 1 
float,double number 1.1 
bytes string wu0OFE" 
string string 

record object 

enum string "FOO" 
array array m 

map object {"a":1} 
fixed string Mutor" 





例如 ， 一 个 64 位 的 链表 可 以 定义 为 : 


p 
{ 
"type": "record", 
"name": "LongList", 
"aliases": ["LinkedLongs"]，// 别 名 
"fields": [ 
{"name": "value", "type": "long"}，// 每 个 元 素 都 含有 长 整 型 
{"name": "next", "type": ["LongList", "null"]} 
// 下 一 元 素 
] 
} 


ee | 


(2) 枚 举 Cenums) 














枚 举 使 用 类 型 名 称 "enum” 并 且 支 持 以 下 几 种 类 型 。 











name: 提供 实例 名 称 的 JSON 字 符 串 〈 必 须 ) 。 


at 








namespace: 限定 名 称 的 JSON 字 符 串 。 





aliases: 字符 串 的 JSON 数 组 ， 为 枚 举 提供 替代 名 称 〈 可 选 ) 。 














doc: 对 模式 使 用 者 提供 说 明 的 JSON 字 符 串 《可 选 ) 。 








symbols: 列 出 标记 的 JSON 数 组 〈 必 须 ) 。 枚 举 中 的 所 有 标记 必须 是 唯一 的 ， 不 允许 有 
E 复 的 标记 。 








例如 ， 纸 牌 游戏 可 以 定义 为 : 
== eee 


{"type": "enum", 

"name": "Suit", 

"symbols": ["SPADES", "HEARTS", "DIAMONDS", "CLUBS"] 

} 
a 


(3) 数组 (arrays) 











数组 使 用 类 型 名 称 “array ”并且 支持 一 个 属性 。 














items: 数组 项 目的 模式 。 


例如 ， 字 符 串 数组 可 以 定义 为 : 
uuu | 


{"type": "array", "items": "string"} 


ETT 





(4) 映射 Cmaps) 














映射 使 用 类 型 名 称 “map” 并 且 支 持 一 个 属性 。 








values: 映射 值 的 模式 。 





映射 值 默 认为 字符 串 ， 例 如 ， 从 字符 串 到 长 整 型 的 映射 可 以 声明 为 : 
OOOO 








{"type": "map", "values": "long"} 
=CCc§#éoo i ———O3OOoMWDDM“lO“OOhh Eee | 


(5) 联合 Cunions) 

















联合 主要 使 用 JSON 数 组 表示 ， 例 如 可 以 用 ["string"，"null"] 声 明 一 个 是 字符 串 或 者 null 的 
模式 。 除 了 指定 的 记录 、 固 定型 ised) 和 枚 举 外 ， 对 于 相同 的 类 型 ， 联 合 只 能 包含 一 个 模 
式 。 例 如 ， 联 合 中 不 允许 包含 两 个 数组 类 型 或 两 个 映射 类 型 ， 但 是 允许 包含 不 同名 称 的 两 种 
类 型 。 联 合 中 不 能 直接 包含 其 他 的 联合 。 





























(6) 固定 型 (fixed) 











固定 型 使 用 类 型 名 称 “fixed" 并 且 支 持 以 下 属性 。 














name: 固定 型 名 称 的 字符 串 〈 必 须 ) 。 





namespace: 限定 名 称 的 字符 串 。 


aliases: 提供 替代 名 称 的 字符 串 的 JSON 数 组 〈 可 选 ) 。 


size: 说 明 每 个 值 的 字 节 数 的 整 型 (可 选 ) 。 


例如 ，16 字 节 大 小 的 固定 型 可 以 声明 为 : 


{"type": "fixed", "size": 16, "name": "md5"} 

















记录 、 枚 举 和 固定 型 都 是 指定 的 类 型 ， 其 全 名 由 两 部 分 组 成 : 名 称 和 命名 空间 。 全 名 为 
点 分 开 的 名 字 序列 ， 其 名 称 部 分 和 记录 字段 名 字 必 须 ; 



































以 字母 A~Z 或 4 一 z 或 开头 ; 


后 面 应 只 含有 A 一 Z、a~z、0~9 或 。 





在 记录 、 枚 举 和 固定 型 的 定义 中 ， 全 名 可 以 通过 以 下 几 种 方式 定义 。 





指定 名 称 和 命名 空间 。 
示 全 名 org.foo.X。 








如 使 用 名 称 "name": "X" 和 命名 空间 "namespace": "org.foo" 来 表 

















指定 全 名 。 如 果 指 定 的 名 称 中 包含 点 ， 则 可 以 使 用 名 称 作为 全 名 ， 并 且 任 何 指定 的 命名 
空间 都 将 被 忽略 。 如 使 用 名 称 "name": "org.foo.X" 来 表示 全 名 org.foo.X。 



































只 指定 名 称 ， 且 名 称 中 不 包含 点 。 这 种 情况 下 命名 空间 取 自 外 层 的 模式 或 协议 ， 比 如 指 


eB name": "X", H 


在 记录 定义 的 字段 则 为 org.foo.Y， 即 全 名 为 org.foo.X。 


总 结 以 上 后 两 种 情况 可 得 : 如 果 名 称 包含 点 ， 则 是 全 名 ; 如 果 不 包 含 点 ， 则 命名 空间 默 


认为 外 层 定 义 的 命名 空间 
间 。 





。 原 始 类 型 没有 命名 空间 并 且 它 们 的 名 称 也 不 能 定义 为 任何 命名 空 











命名 的 类 型 和 字段 可 以 拥有 别名 。 为 方便 模式 的 发 展 和 处 理 不 同 的 数据 集 ， 在 实现 中 可 
以 选择 使 用 别名 将 作者 的 模式 (writers schema) 映射 成 读者 的 模式 (readers schema) 。 使 









































别名 可 以 改变 作者 的 模式 ， 例 如 ， 如 果 作者 的 模式 命名 为 "Foo"， 而 读者 的 模式 命名 


为 "bar" 且 别名 为 "Foo"， 那 么 在 读 取 时 即使 "Foo" 称 作 "Bar" 也 能 实现 。 同 理 ， 如 果 数 据 曾经 写 
成 字段 名 为 "x" 的 记录 ， 那 么 即使 是 字段 名 为 "y" 别 名 为 x" 的 记录 也 能 读 取 ， 尽 管 "x" 写 成 








了 "y"。 


16.1.2 ”数据 序列 化 








模式 声明 后 就 可 以 根据 模式 写 入 数据 了 。 当 数据 存储 或 传输 时 需要 对 其 序列 化 ， 需 要 注 











意 的 是 ，Avro 数 据 和 其 模 吉 


会 一 起 被 序列 化 。 基 于 Avro 的 RPC 系 统 必 须 保 证 远程 的 数据 接收 








器 拥有 写 入 数据 的 模式 副本 ， 因 为 读 取 数据 时 写 入 数据 的 模式 是 知道 的 ， 所 以 Avro 数据 本 身 


不 需要 标记 类 型 信息 。 


通常 ， 序 列 化 和 还 原 序 


遍历 过 程 ， 并 在 遍历 过 程 











列 化 过 程 ( 见 图 16-1) 可 以 看 成 是 对 模式 深度 优先 、 从 左 到 右 的 








序列 化 或 还 原 序列 化 遇 到 的 原始 类 型 








Avro 指定 两 种 序列 化 编码 : 二 进 制 和 JSON。 在 这 两 种 序列 化 编码 中 ， 因 为 二 进 制 编码 速 
度 快 且 生成 的 数据 量 小 ， 所 以 大 多 数 的 应 用 程序 使 用 二 进 制 编 码 。 但 是 基于 调试 和 网 络 的 应 
程序 有 时 使 用 JSON 编 码 比较 合适 。 下 面 先 介绍 各 种 类 型 的 二 进 制 编 码 。 







































































原始 类 型 的 二 进 制 编码 有 如 下 几 种 。 


null 编 码 成 零 字 节 。 





boolean 编 码 成 单字 节 ， 值 为 0 (false) 或 1 Crue) 。 








int 和 long 使 用 可 变 长 度 的 ZigZag 编 码 [!] ， 如 表 16-2 所 示 。 











表 16-2 ZigZag 编码 举例 


























value ( 值 ) hex (十 六 进 制 ) 

0 00 

1 ol 

1 02 

03 

2 04 

64 Tf 

64 8001 























float 占 4 字 节 ， 使 似 于 Java 中 floatToIntBits 的 方法 可 以 将 浮 点 数 转化 成 32 位 的 整 型 ， 
然后 编码 成 低 字 节 序 的 格式 。 

















double 占 8 字 节 ， 使 似 于 Java 中 doubleToLongBits 的 方法 可 以 将 双 精 度数 转化 

















为 64 位 的 整 型 ， 然 后 编码 成 低 字 节 序 的 格式 。 
bytes 根 据 数据 的 字 节 编码 成 长 整 型 。 


string 根 据 UTF-8 字 符 集 编码 成 长 整 型 。 





如 果 UTF-8 字 符 集中 全 、'0'、'0' 的 十 六 进 制 分 别 为 66 6f 6f， 并 且 字 符 串 "foo" 含 有 三 ( 编 
码 成 十 六 进 制 06) 个 字符 ， 那 么 "foo" 编 码 为 06 66 OF 6f。 











复杂 类 型 的 二 进 制 编码 方法 有 如 下 几 种 。 


(1) 记录 (records) 











通过 对 声明 的 每 个 字段 值 按 顺序 编码 来 对 记录 进行 编码 。 换 句 话说， 记录 的 编码 由 每 个 
字段 的 编码 串联 而 成 。 例 如 ， 记 录 模式 的 代码 如 下 : 











.一 
{ 
"type": "record", 
"name": "test", 
Vfl dss. T 
{"name": "a", "type": "long"}, 
{"name": "b", "type": "string"} 
] 
} 


| 
以 上 代码 中 ， 假 设 a 字 段 的 值 为 27〈 十 六 进 制 为 6) ，b 字 段 的 值 为 "foo" (十 六 进 制 为 06 
66 6f 6f) ， 那 么 记录 的 编码 仅仅 是 这 些 编码 的 串联 ， 即 十 六 进 制 序列 36 06 66 6f 6f。 








(2) 枚 举 Cenums) 














枚 举 按 整 型 编码 ， 其 中 整 型 代表 每 个 标志 在 模式 中 的 位 置 〈《 从 0 开始 ) 。 例 如 ， 枚 举 模 
式 的 代码 如 下 : 











= = = = === == ===== 王 = == = === 才 
{"type": "enum", "name": "Foo", "symbols": ["A", "B", "C", "D"]} 
一 





上 面 的 例子 序列 化 时 将 被 编码 成 整 型 0~~3， 其 中 0 代表 "A"，3 代 表 "D"。 


(3) 数组 (arrays) 





数组 编码 成 一 系列 块 ， 每 个 块 包含 一 个 长 整 型 的 数值 ， 长 整形 的 数值 组 成 为 数组 项 ， 其 




















字段 ， 则 利用 块 大 小 可 以 跳 过 部 分 数据 。 例 如 ， 数 组 模式 为 : 











中 最 后 一 块 为 0%， 表示 是 数组 的 结尾 ， 每 个 数组 项 的 模式 都 会 编码 。 如 果 块 中 的 值 为 负数 ， 
则 取 绝 对 值 ， 紧 跟 数值 后 面 的 块 的 大 小 为 长 整 型 ， 表 示 块 





的 字 节 数 。 如 果 只 映射 记录 部 分 


= 
{"type": "array", "items": "long"} 
[= | 























对 于 包含 项 3 和 27 的 数组 ， 其 数组 包含 两 个 长 整 型 值 ， 其 中 数组 个 数 “2” 使 用 ZigZag 编 码 
成 十 六 进 制 为 04， 而 3 和 27 编 码 成 十 六 进 制 分 别 为 06 和 36， 最 后 以 0 结尾 ， 其 数组 编码 成 : 04 


06 36 00 


这 


4 


wey 


对 ， 值 为 0 的 块 表示 映射 的 结尾 。 如 果 块 的 值 为 负数 ， 则 取 

















中 块 表示 方法 允许 读 / 写 大 小 超过 内 存 缓冲 的 数组 ， 因 为 在 不 知道 数组 长 度 的 情况 下 就 
可 以 开始 写 入 。 


) 映射 








(maps) 


HH 的 编码 和 数组 相似 ， 也 是 编码 成 一 系列 块 ， 每 个 块 包含 一 个 长 整 型 值 ， 然 后 是 键 值 





大 小 为 长 整 型 ， 表 示 块 中 的 字 节 数 。 如 果 只 映射 记录 的 部 分 字段 ， 则 利 


分 数据 。 





其 绝对 值 。 紧 跟 数值 后 面 的 块 的 








块 大 小 可 以 跳 过 部 














同 数组 一 样 ， 在 不 知道 映射 长 度 的 情况 下 就 可 以 写 入 ， 因 此 这 种 块 
写 大 小 超过 内 存 绥 冲 的 映射 。 








(5) 联合 (unions) 


联合 编码 时 先 写 入 一 个 长 整 型 值 表示 联合 
中 的 值 编 码 。 例 如 ， 联 合 模式 ["string"，"nul 由 应 如 此 编码 : null 为 整数 1 (联合 中 null 的 索 











引 ， 使 











序列 化 


ZigZa 





的 字符 




















的 表示 方法 也 允许 读 / 


每 个 模式 值 的 位 置 〈 从 0 开始 ) ， 再 对 联合 





g 编 码 成 十 六 进 制 02) ;字符 串 "a" 为 整数 0〈 联 合 中 "string" 的 索引 ) ; 随后 为 


61， 所 以 最 后 这 个 联合 编码 应 为 00 02 61 。 





(6) 固定 型 (fixed) 




















固定 型 实例 编码 可 使 用 模式 中 声明 的 字 节 数 。 对 于 编码 成 JSON 类 型 ， 除 了 联合 之 外 ， 还 
可 以 参照 表 16-1 中 JSON 类 型 与 Avro 类 型 的 对 应 关系 进行 编码 。 联 合 的 JSON 编 码 如 下 所 示 : 








如 果 值 为 null， 那 么 按照 JSON null 来 编码 ; 





否则 ， 按 照 带 有 名 称 / 值 的 SON 对 象 进行 编码 ， 其 中 名 称 为 类 型 名 称 ， 值 为 递归 编码 
值 。 对 于 Avro 的 命名 类 型 (记录 、 固 定性 和 枚 举 ) 将 使 用 用 户 指定 的 名 称 ， 对 于 其 他 类 型 将 
使 用 类 型 名 。 





















































例如 ， 对 于 联合 模式 [rull"，"string"，"Foo"]， 其 中 Foo 是 记录 名 称 ， 应 如 此 编码 : null 作 
为 null 编 码 ; 








字符 串 "a" 按 照 {"'string": "a"} 编 码 ; 


Foo 实 例 按照 {"Foo": {.….….}} 编 码 ， 这 里 {.……} 表 示 一 个 Foo 实 例 的 JSON 编 码 。 





需要 注意 的 是 ， 正 确 处 理 JSON 编 码 数据 仍 需要 模式 ， 因 为 JSON 编 码 并 不 区 分 int 和 
long、float 和 double、 记 录 (records) 和 映射 Cmaps) 、 枚 举 Cenums) 和 字符 串 (strings) 


ts 
To 








[中 ”ZigZag 编 码 原 使 用 于 Protocol Buffers， 是 一 种 将 有 符号 数 映射 成 无 符号 数 的 一 种 编码 方 
式 。 


16.1.3 ”数据 排列 


c= 
Ft 














对 象 化 前 最 常 使 用 的 操作 就 是 排序 ， 在 Avro 确定 了 数据 标准 排列 顺序 后 ， 就 允许 系统 写 
入 的 数据 可 以 被 另外 的 系统 高 效 地 排序 了 ， 这 是 个 很 重要 的 优化 。 即 使 Avro 二 进 制 数据 还 没 
有 反 序 列 化 成 对 象 ， 也 可 以 对 其 进行 高 效 排序 。 





























要 对 拥有 相同 模式 的 数据 项 进行 比较 ， 可 以 采用 对 模式 的 深度 优先 、 从 左 到 右 递 归 成 对 
的 方式 。 遇 到 不 能 匹配 的 项 即 按 原 来 顺序 ， 比 如 boolean 类 型 的 数据 和 int 类 型 的 数据 不 能 匹 
配 ， 那 就 不 用 进行 排序 。 具 体 来 说 ， 相 同 模式 的 两 个 项 进行 比较 时 须 遵从 下 面 的 规则 。 
































null 数 据 总 是 相等 的 。 





boolean 类 型 中 false 排 在 true 的 前 面 。 
int、long、float 和 double 数 据 按照 数值 升序 排列 。 
bytes 和 fixed 数 据 根据 8 位 无 符号 值 按照 字典 序 进 行 比较 。 


string 数 据 根据 Unicode 按 字典 序 进行 比较 ， 要 注意 的 是 ， 对 字符 串 而 言 ， 既 然 UTF-8 作 
为 二 进 制 编码 使 用 ， 那 么 按 字 节 排 序 和 按 字符 串 二 进 制 数据 排序 是 相同 的 。array 数据 根据 元 
素 按 字 典 序 进行 比较 。 























enum 数 据 根据 枚 举 模 式 中 符号 的 位 置 进 行 排序 。 例 如 ， 枚 举 的 符号 位 ["z"，"a"] 把 "z'" 排 
在 "a" 前 面 。 











union 数 据 先 按照 联合 的 分 支 进行 排序 ， 然 后 按照 分 支 的 类 型 排序 。 例 如 ， 联 合 
["int"，"string"] 中 ， 所 有 整 型 将 排 在 所 有 字符 型 值 前 ， 而 整 型 和 字符 型 各 自 按照 上 面 的 规则 
排序 。 








record 数 据 根据 字段 按 字典 序 排序 。 如 果 字 段 指定 其 顺序 为 





"ascending"， 其 值 排序 的 顺序 不 变 ; 


"descending"， 其 值 排序 的 顺序 反 转 ; 





"ignore"， 排 序 时 其 值 将 忽略 。 





map 数 据 不 进行 比较 。 试 图 比较 包含 映射 的 数据 是 非法 的 ， 除 非 映射 是 “有 序 ” 的 ， 否 
则 “忽略 ”记录 字段 。 


16.1.4 对 象 容器 文件 


序列 化 后 的 数据 需要 存 入 文件 中 。Avro 包 含 一 个 简单 的 对 象 容器 文件 ， 一 个 文件 拥有 一 

















个 模式 ， 文 件 中 所 有 存储 的 对 象 必须 根据 模式 使 用 二 进 制 编码 写 入 。 对 象 存储 在 可 以 压缩 的 









































块 中 ， 块 之 间 使 用 同步 机 制 为 MapReduce 处 理 提 供 高 效 的 文件 分 离 。 
意 指定 的 元 数据 。 那 么 一 个 文件 包含 : 


文件 头 。 


一 个 或 多 个 文件 数据 块 。 














其 中 文件 头 包含 ， 





4 个 字 节 ， 分 别 是 ASCII 码 的 o、b、j 、1。 


包含 模式 的 文件 元 数据 。 





为 此 文件 随机 生成 的 16 字 节 同 步 器 。 
文件 的 元 数据 包含 : 

指示 元 数据 的 一 个 键 / 值 对 的 长 整 型 。 
每 个 对 的 字符 串 键 和 字 节 


所 有 以 "Avro" 开 头 的 元 数据 属性 是 保留 的 ， 以 下 文件 元 属性 主要 


























文件 中 可 能 包含 用 户 随 


Fs 


avro. Schema， 包 含 存储 在 文件 中 对 象 的 模式 ， 如 JSON 数 据 〈 必 须 ) 。 


























avro. codec， 编 解码 器 名 称 ， 其 编码 器 用 来 压缩 诸如 字符 串 的 数据 块 。 需 要 实现 支 





持 "null" 和 "deflate" 编 解码 器 ， 如 果 没 有 编 解 码 器 ， 那 假设 为 "hull"。 














"null" 编 解码 器 不 需要 对 数据 解压 缩 ， 而 "deflate" 编 解码 器 使 用 文档 RFC1951 中 指定 的 

















deflate 算 法 写 入 数据 块 并 使 用 zlib 库 实现 ， 要 注意 的 是 这 个 格式 不 像 RFC1950 中 的 zlib 格 式 》) 
没有 校 验 和 。 

















一 个 文件 头 需 要 按照 如 下 模式 进行 描述 ; 


有 
{"type": "record", "name": "org.apache.avro.file.Header"， 
"fields": [ 

{"name": "magic", "type": 
{"type": "fixed", "name": "Magic", "size": 4}}, 
{"name": "meta", "type": {"type": "map", "values": "bytes"}}> 
{"name": "sync", "type": 
{"type": "fixed", "name": "Sync", "size": 16}}, 
] 
} 


文件 数据 块 包括 : 











一 个 长 整 型 ， 用 于 指示 块 中 对 象 数 目 。 














一 个 长 整 型 ， 用 于 表示 使 用 编 解码 器 后 ， 所 在 块 中 序列 化 对 象 的 字 节 大 小 。 























序列 化 对 象 ， 如 果 编 解码 器 是 指定 的 ， 则 用 它 进 行 压缩 。 











步 器 。 


可 


16 字 节 的 文件 























这 样 ， 即 使 不 用 反 序 列 化， 每 个 块 的 二 进 制 数据 也 可 以 高 效 获得 或 跳 过 。 这 种 块 的 大 
小 、 对 象 数目 和 同步 器 的 结合 可 以 检测 出 坏 的 块 并 且 帮 助 保持 数据 的 完整 性 。 

















图 16-3 表 示 了 对 象 容器 文件 的 具体 格式 。 






stufent.dh 





图 16-3 对 象 容器 文件 的 具体 格式 


16.1.5 协议 声明 
























































当 Avro 用 于 RPC 时 ，Avro 使 用 协议 描述 远程 过 程 调用 RPC 接 口 。 和 模式 一 样 ， 它 们 是 
JSON 文 本 来 定义 的 。 协 议 是 带 有 以 下 属性 的 JSON 对 象 : 














protocol， 协 议 名 称 的 字符 串 〈 必 须 ) 。 
namespace， 限 定名 称 的 可 选 字符 串 。 


doc， 描 述 协议 的 可 选 字符 串 。 





types， 指 定 类 型 (记录 、 枚 举 、 固 定型 和 错误 ) 定义 的 可 选 列 表 。 错 误 的 定义 和 记录 一 
样 ， 只 不 过 错误 使 用 "error" 而 记录 使 用 "record"， 要 注意 不 允许 对 指定 类 型 的 向 前 引 


















































messages， 一 个 可 选 的 JSON 对 象 ， 其 键 是 消息 名 称 ， 值 是 对 象 ， 任 意 两 个 消息 不 能 拥有 
相同 的 名 称 。 











模式 中 定义 的 名 称 和 命名 空间 规则 也 同样 适用 于 协议 。 下 面 介绍 的 协议 消息 可 以 拥有 以 
下 属性 : 











doc， 消 息 的 可 选 描述 。 





request， 指 定 的 类 型 化 的 参数 模式 列表 〈 这 和 记录 声明 中 的 字段 有 相同 的 形式 ) 。 





response， 响 应 模式 。 





error union， 所 声明 的 错误 模式 的 联合 (可 选 ) 。 有 效 的 联合 会 在 声明 的 联合 前 面 加 
上 "string"， 人 允许 传递 未 声明 的 “系统 ”错误 。 例 如 ， 如 果 声 明 的 错误 联合 是 ["AccessError'"]， 
那么 有 效 的 联合 是 ["string"，"AcessError"]。 如 果 没 有 错误 声明 ， 那 么 有 效 的 错误 联合 是 
["string"]。 使 用 有 效 联合 错误 可 以 序列 化 ， 且 协议 的 JSON 声 明 只 能 包含 声明 过 的 联合 。 























one-way， 布 尔 参数 〈 可 选 ) 。 


处 理 请 求 参数 列表 相当 于 处 理 没 有 名 称 的 记录 。 既 然 读 取 的 记录 字段 列表 和 写 入 的 记录 
字段 列表 可 以 不 同 ， 那 么 调用 者 和 响应 者 的 请 求 参 数 也 可 以 不 同 ， 这 种 区 别 的 解决 方法 与 记 
录 字 段 间 差 异 的 解决 方式 相同 。 只 有 当 回 应 的 类 型 是 “nul" 并 且 没有 错误 列 出 的 时 候 ，one- 
way 参数 才 为 真 。 
































下 面 来 举 一 个 简单 的 HelloWorld 协 议 的 例子 ， 它 可 以 定义 为 : 


—_—_—_—_—_—_——————————————— I 
{ 
"namespace": "com.acme"，// 名 称 的 限定 
"protocol": "HelloWorld"，// 协 议 名 称 
"doc": "Protocol Greetings"，// 协 议 的 说 明 
"types": [ 
{"name "Greeting", "type": "record", "fields": [ 
{"name": "message", "type": "string"}]}; 
{"name": "Curse", "type": "error", "fields": [ 
{"name": "message", "type": "String"}]}]> 
"messages": {// 消 息 
"hello 
"doc": "Say hello." 
"request": [{"name": "greeting", "type": "Greeting"}], 
"response": "Greeting", 
"errors": ["Curse™] 
} 
} 
} 


一 








16.1.6 ”协议 传输 格式 


消息 可 以 通过 不 同 的 传输 机 制 进行 传输 ， 而 传输 中 的 消息 则 是 一 些 字 节 序列 ， 那 么 传输 
机 制 需要 支持 : 





请 求 信息 的 传送 。 
对 应 响应 信息 的 接收 。 


服务 器 会 对 客户 机 的 请 求 信息 发 送 响 应 信息 ， 这 种 响应 机 制 就 是 特定 传输 ， 例 如 在 
HTTP 中 ， 由 于 HTTP 直 接 支持 请 求 和 响应 ， 所 以 这 种 传输 是 透明 的 ， 但 是 利用 同一 套 接 字 传 
输 多 种 不 同 客户 线程 的 时 候 需 要 用 特定 的 标识 来 区 分 不 同 客户 的 信息 。 


















































传输 可 能 是 无 状态 的 也 可 能 是 有 状态 的 。 在 无 状态 传输 中 ， 是 假定 消息 发 送 没有 建立 连 
接 状 态 。 而 有 状态 传输 则 建立 了 连接 ， 这 个 连接 可 以 用 来 传输 不 同 的 消息 。 下 面 我 们 会 在 握 
手 (handshake ) 部 分 中 深入 分 析 。 









































当 用 HTTP 协 议 进 行 传输 时 ， 每 个 Avro 消息 交换 都 是 一 对 HTTP 请 求 /响应 。 一 个 Avro 协 
议 的 所 有 消息 共享 一 个 HTTP 服 务 器 上 的 URL， 正 常 的 和 错误 的 Avro 消息 都 应 该 使 
200 (OK) 响应 代码 。 尽 管 Avro 请 求 和 响应 是 HTTP 请 求 和 响应 的 整个 内 容 ， 但 也 可 能 使 
大 量 的 编码 。HTTP 请 求 和 响应 的 内 容 类 型 应 该 指定 为 “avro/binary ”而 且 请 求 应 该 使 用 POST 
方法 生成 。Avro 使 用 HTTP 作 为 无 状态 传输 。 


































































































Avro 消息 经 过 框架 处 理 后 由 一 系列 缓冲 区 组 成 ， 消 息 框架 是 消息 和 传输 之 间 的 一 层 ， 
来 优化 某 些 操作 。 经 过 框架 处 理 后 的 消息 数据 格式 如 下 〈 见 图 16-4) 。 

















传输 民 


图 16-4 消息 的 封装 


























1) 系列 缓冲 区 组 成 ， 其 中 缓冲 区 包括 : 




















x! 











4 个 字 节 ， 用 大 端 字 节 (big-endian) 方法 [1] 表示 的 缓冲 区 长 度 。 














缓冲 区 数据 。 








2) 最 后 以 空 字 节 (zero-length) 的 缓冲 区 结束 。 


对 于 请 求 和 响应 消息 格式 ， 框 架 是 透明 的 ， 任 何 消息 可 以 表示 为 一 个 或 多 个 缓冲 。 框 架 


F 发 者 更 高 效 地 向 不 同 的 目 





使 得 消息 接收 者 更 高 效 地 从 不 同 的 渠道 获取 不 同 的 缓冲 ， 也 使 得 天 


的 地 存储 不 同 的 缓冲 。 特 别 是 当 复制 大 量 二 进 制 对 象 时 ， 它 可 以 减少 读 / 写 的 次 数 。 例 如 ， 如 
果 RPC 参 数 中 包含 一 个 MB 大 小 的 文件 数据 ， 那 么 一 方面 ， 数 据 可 以 从 文件 描述 符 直接 复制 到 
套 接 字 上 ， 另 一 方面 ， 数 据 可 以 直接 写 入 文件 描述 符 而 不 需要 进入 用 户 空间 。 





























一 个 简单 且 值 得 推荐 的 框架 策略 是 : 相对 于 那些 大 于 正常 输出 缓冲 区 的 单个 二 进 制 对 象 
建立 新 的 段 。 小 的 对 象 可 以 附加 在 缓冲 区 中 ， 而 较 大 的 对 象 可 以 写 入 自己 的 缓冲 区 中 。 当 读 
者 需要 读 取 大 的 对 象 时 ， 可 以 直接 处 理 整个 缓冲 区 而 不 用 复制 。 





















































使 用 握手 的 目的 是 确保 客户 机 和 服务 器 有 对 方 的 协议 定义 ， 这 样 客户 机 可 以 正确 地 对 响 
应 反 序列 化 ， 且 服务 器 可 以 正确 地 对 请 求 反 序列 化 。 客 户 机 和 服务 器 都 应 在 高 速 绥 冲 区 中 保 
留 最 近 的 协议 ， 这 样 在 大 多 数 情况 下 ， 可 以 不 需要 额外 的 往返 网 络 交换 或 重新 获取 全 部 传输 


协议 就 能 完成 握手 。 
























































在 完成 握手 过 程 后 执行 RPC 请 求 和 响应 ， 对 于 无 状态 的 传输 ， 在 所 有 请 求 和 响应 之 前 都 
要 进行 握手 ， 而 对 于 有 状态 的 传输 ， 在 成 功 响应 之 前 ， 握 手 过 程 应 该 附加 在 请 求 和 响应 上 ， 
之 后 就 不 需要 握手 了 。 





























握手 过 程 使 用 以 下 记录 模式 ， 代 码 如 下 : 


OO 
"type": "record", 
"name": "HandshakeRequest", "namespace": "org.apache.avro.ipc", 
"fields": [ 
{"name": "clientHash", 
"type": {"type": "fixed", "name": "MD5", "size": 16}}, 
{"name": "clientProtocol", "type": ["null", "string"]}, 
{"name": "serverHash", "type": "MD5"}, 
{"name": "meta", "type": ["null", 
{"type": "map", "values": "bytes"}]} 
] 
} 
{ 
"type": "record", 
"name": "HandshakeResponse", "namespace": "org.apache.avro.ipc" 
"fields": [ 
{"name": "match", 








"type": {"type™: "enum", "name": "HandshakeMatch", 


"symbols": ["BOTH", "CLIENT", "NONE"] }},; 

{"name": "serverProtocol", 

"type": ["null", "string"]}, 

{"name": "serverHash", 

"type": ["null", {"type": "fixed", "name": "MD5", "size": 
16})}, 

{"name": "meta", "type": ["null", 


{"type": "map", "values": "bytes"}]} 
] 
} 


二 一 

客户 机 在 每 个 请 求 前 面 加 上 HandshakeRequest， 表 示 包 含 客户 机 和 服务 器 协议 
(clientHash! =null, clientProtocol=null, serverHash! =null) 的 哈 希 值 ， 这 里 哈 希 值 是 JSON 
协议 内 容 的 128 位 MD5 哈 希 值 。 如 果 客 户 机 没有 连接 到 给 定 的 服务 器 ， 那 么 它 发 送 的 哈 希 值 
就 是 对 服务 器 哈 希 值 的 猜测 ， 否 则 它 会 发 送 之 前 从 服务 器 中 获得 的 哈 希 值 。 服 务 器 响应 的 
HandshakeResponse 包 含 以 下 内 容 之 一 。 








1) match=BOTH, serverProtocol=null, serverHash=null。 如 果 客 户 机 发 送 的 是 服务 器 协 
议 的 有 效 哈 希 值 ， 并 且 服 务 器 知道 响应 客户 机 哈 希 值 的 协议 ， 那 么 请 求 是 完整 的 ， 并 且 响 应 
数据 加 在 HandshakeResponse 后 面 。 








2) match=CLIENT, serverProtocol! =null, serverHash! =null。 如 果 服 务 器 事前 知道 客户 
机 的 协议 ， 而 客户 机 却 发 送 了 一 个 错误 的 服务 器 协议 哈 希 值 ， 那 么 请 求 是 完整 的 并 且 响 应 数 
据 加 在 HandshakeResponse 之 后 。 之 后 客户 机 必须 使 用 返回 的 协议 来 处 理 响 应 ， 并 且 在 高 速 组 
存 中 保留 这 个 协议 和 与 服务 器 通信 的 哈 希 值 。 
































‘at 


3) match=NONE。 如 果 服 务 器 事先 不 知道 客户 机 的 协议 ， 且 服务 器 的 协议 哈 希 值 是 错 
误 的 ， 则 serverHash 和 serverProtocol 的 值 可 能 也 为 non-null。 在 这 种 情况 下 ， 客 户 机 必须 使 
其 协议 文本 (clientHash! =null, clientProtocol! =null, serverHash! =null) 重新 提交 它 的 请 
求 ， 并 且 服 务 器 应 该 以 正确 的 方式 响应 (match=BOTH, serverProtocol=null, 
serverHash=null) 。 另 外 meta 字 段 是 保留 字段 ， 用 于 以 后 增加 握手 的 功能 。 



















































































一 次 调用 包括 请 求 消息 和 与 之 对 应 的 结果 响应 或 错误 消息 。 请 求 和 响应 包含 可 扩展 的 元 
数据 ， 两 种 消息 都 会 如 上 进行 框架 处 理 。 调 用 请 求 的 格式 包括 以 下 几 种 : 


























1) 请 求 元 数据 ， 即 类 型 值 的 映射 。 


2) 消息 名 称 ， 即 一 个 Avro 字符 串 。 


3) 消息 参数 ， 根 据 消息 请 求 声明 对 参数 进行 序列 化 。 





当 消 息 声 明 为 单 向 的 并 通过 成 功 握手 响应 建立 有 状态 的 连接 ， 那 么 不 需要 发 送 响应 数 
据 。 和 否则 需要 发 送 ， 发 送 的 调用 请 求 的 格式 如 下 : 




















1) 响应 元 数据 ， 即 类 型 字 节 的 映射 。 


2) 单字 节 的 错误 标志 布尔 值 ， 然 后 ， 如 果 错误 标志 为 假 ， 消 息 响应 ， 序 列 化 每 个 消息 
响应 模式 。 


如 果 错 误 标志 为 真 ， 即 为 错误 ， 序 列 化 每 个 消息 有 效 错 误 联 合 模式 。 


U 存放 字 节 顺序 的 方法 ， 大 端 方式 将 高 位 存放 在 低地 址 ， 小 端 方 式 将 高 位 存放 在 高 地 址 。 


16.1.7 ”模式 解析 





无 论 从 RPC 还 是 从 文件 中 获得 Avro 数 据 ， 由 于 模式 已 知 ， 读 者 都 可 以 解析 数据 ， 但 是 那 
个 模式 可 能 并 不 完全 是 所 期 望 的 模式 。 例 如 ， 如 果 数 据 写 入 的 软件 版 本 与 读者 不 同 ， 那 么 记 
录 中 的 一 些 字段 可 能 会 增加 或 减少 ， 这 一 部 分 将 详 述 如 何 解决 这 种 模式 区 别 。 
































我 们 称 用 来 写 数据 的 模式 为 写 者 的 模式 ， 应 用 程序 期 望 的 模式 为 读者 的 模式 。 两 个 模式 
之 间 是 否 匹 配 可 按照 下 面 的 规则 进行 判断 。 














) 如 果 两 个 模式 符合 以 下 情况 之 一 则 为 匹配 ， 否 则 为 不 匹配 ， 并 产生 错误 : 


模式 都 是 数组 且 项 类 型 匹配 。 





模式 都 是 映射 且 值 类 型 匹配 。 


模式 都 是 枚 举 且 名 称 匹配 。 


模式 都 是 固定 型 且 大 小 和 名 称 匹配 。 








模式 都 是 记录 且 名 称 相同 。 











模式 是 其 中 之 一 为 联合 。 








两 个 模式 拥有 相同 的 原始 类 型 
写 者 的 模式 可 以 提升 为 读者 的 模式 ， 如 下 所 示 : 


:int 可 以 转化 为 Iong、float 或 者 double; 





"long 可 以 转化 为 float 或 double; 





-float 可 以 转化 为 double。 


2) 如 果 两 个 都 是 


记录 ， 则 : 





字段 的 顺序 可 以 不 同 ， 


有 相同 名 称 字段 





WR SH ida 


如 果 读 者 记录 


模式 中 


办 











的 模式 记录 是 递归 解析 的 。 





PRAISE, J 


有 一 个 为 默认 值 的 字段 ， 并 且 








那么 读者 的 这 个 人 


段 应 该 使 











默认 值 。 





如 果 读 者 记录 


3) 如 果 两 个 都 是 枚 举 ， 


4) 如 果 两 个 都 是 数组 ， 


5) 如 果 两 个 都 是 映射 ， 


6) 如 果 两 个 都 是 联合 ， 对 读者 联合 





如 果 没 有 匹配 的 ，】 


7) 如 果 读 者 为 联合 
行 递归 解析 ， 如 果 没 有 匹配 的 ， 将 产 4 


D 如 果 写 者 的 是 联合 ， 读 者 的 4 
行 递归 解析 ， 如 果 它 们 不 匹配 ， 将 产 和 4 


模式 解析 时 将 忽略 模式 中 


被 抛弃 。 


模式 
段 ， 那 么 将 发 出 错误 信号 。 


ie 





PARA ERMAN FE, H 


b 么 写 者 字段 


F 且 写 者 的 模式 中 


为 字段 是 通过 名 称 来 匹配 的 。 





| 写 者 的 模式 





PZH 








且 写 者 的 符号 并 不 在 读者 


的 枚 举 中 ， 那 么 





li 








解析 算法 递归 应 





于 读者 和 写 者 


的 数组 项 的 模 




















解析 算法 递归 应 











EHR. 
， 而 写 者 的 4 


#4 


E 错 误 。 





K 





上 错误 。 


P 匹 配 写 者 联合 模式 


下 是， 对 读者 联合 


是 ， 且 读者 的 模式 





h 











协议 说 明 的 "doc" 字 段 ， 











by Pea Best 


的 值 将 被 忽略 。 


没有 相同 名 称 的 字段 ， 


没有 相同 名 称 的 字 


a 


生 错 误 。 


式 。 


于 读者 和 写 者 映射 值 的 模式 。 


的 第 一 个 模式 进行 递归 解析 ， 


匹配 所 选 写 者 模式 的 第 一 个 模式 进 


匹配 所 选 写 者 的 模式 ， 那 么 对 它 进 








PHS" doo "部 分 将 


16.2 ”Avro 的 C/C++ 实 现 





本 节 主要 介绍 Avro 的 C/C++ 实现 ， 其 中 在 Avro C 库 中 已 经 嵌入 Jansson (Jansson 为 编译 和 
操控 JSON 数 据 的 C 语 言 库 ) ， 这 样 可 以 将 JSON 解 析 成 模式 结构 。 目 前 C/C++ 实现 支持 ， 所 有 
原始 和 复杂 数据 类 型 的 二 进 制 编码 和 解码 ， 向 Avro 对 象 容器 文件 进行 存储 ， 模 式 解析 、 提 升 
和 了 映射 ， 写 入 Avro 数据 的 有 效 方式 和 无 效 方式 ， 但 C 语 言 接口 暂 不 支持 远程 过 程 调用 RPC。 






































Avro C 为 所 有 模式 和 数据 对 象 进行 引用 计数 ， 当 引用 数 降 为 零 时 便 释放 内 存 。 例 如 ， 创 
建 和 释放 一 个 字符 串 ， 
| 


avro_datum_t string=avro_string ("This is my string") ; 

















avro_datum_decref (string) ; 
一 


当 考虑 创建 更 加 详细 的 模式 和 数据 结构 时 就 会 有 一 点 复杂 ， 例 如 ， 创 建 带 有 字符 串 字 段 
的 记录 : 
Eee 


avro_datum_t example=avro_record ("Example") ; 
avro_datum_t solo_field=avro_string ("Example field value") ; 
avro_record_set (example, "solo", solo field) ; 


avro_datum_decref (example) ; 
—SSSSSSSSSSSSSSSSSSSSSSSS—SSSa 














在 这 个 例子 中 ，solo_field 数 据 没 有 被 释放 ， 因 为 它 有 两 个 引用 : 原来 的 引用 和 隐藏 在 记 
录 Example 中 的 引用 。 调 用 avro_datum_ decref (example) 只 能 将 引用 数 减少 为 一 。 如 果 想 
结束 solo_field 模 式 ， 则 需要 avro_datum_ decref (solo field) 来 完全 删除 solo_field 数 据 并 释 
放 。 




































































一 些 数据 类 型 是 可 以 “包装 "和 “给予 "的 ， 这 可 以 让 C 程 序 员 自 由 地 决定 谁 负责 内 存 的 分 
配 回 收 。 以 字符 串 为 例 ， 建 立 一 个 字符 串 数据 有 三 种 方式 : 
OOO 


avro_datum_t avro string (const char*str) ; 








avro_datum_t avro_wrapstring (const char*str) ; 
avro_datum_t avro_givestring (const char*str) ; 


TT | 























如 果 使 用 avro_string， 那 么 Avro C 会 复制 字符 串 并 且 当 不 再 引用 时 释放 它 。 在 有 些 情 况 
下 ， 特 别 是 当 处 理 大 量 数据 时 要 避免 这 种 内 存 复制 ， 这 时 需要 使 用 avro_wrapstring 和 
avro_givestring。 如 果 使 用 avro_wrapstring， 那 么 Avro C 不 做 任何 内 存 处 理 ， 它 只 保存 指 
据 的 指针 ， 这 时 需要 自己 来 释放 字符 串 。 需 要 注意 的 是 ， 当 使 用 avro_wrapstring 时 ， 在 
avro_datum_decref () 取消 引用 数据 前 不 要 释放 字符 串 。 如 果 使 用 avro_givestring， 那 么 
Avro C 在 数据 取消 引用 之 后 会 释放 字符 串 ， 从 某 种 程度 上 说 ，avro_givestring 将 释放 字符 是 
的 “责任 ”给 了 Avro C。 需 要 注意 的 是 ， 如 果 没 有 使 用 如 malloc 或 strdup 分 配 堆 给 字符 串 ， 则 不 
要 把 “责任 ”给 Avro C。 例 如 ， 不 能 这 样 做 : 
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| 
avro_datum_t bad_idea=avro_givestring ("This isn't allocated 
on the heap") ; 


1 




















写 入 数据 时 可 以 使 用 下 面 的 函数 : 


一 一 一 一 ~ 
int avro write data (avro writer t writer, 
avro_schema t writers schema, avro_datum_t datum) ; 


| 

如 果 省 略 writers_schema 值 ， 那 么 数据 在 发 送 给 写 数据 的 函数 前 必须 检验 数据 格式 的 正 
确 性 。 如 果 已 经 确定 数据 是 正确 的 ， 那 么 可 以 设置 writers_schema 为 NULL， 这 时 Avro C 不 会 
检查 格式 。 需 要 注意 的 是 ， 写 入 Avro 文件 对 象 容器 的 数据 总 是 要 进行 验证 。 





F 











下 面 介绍 一 个 简单 例子 ， 例 子 中 建立 了 学 生 信 息 的 数据 库 ， 并 向 数据 库 中 读 写 记录 : 











/*student.c*/ 
#include<avro.h> 
#include<inttypes.h> 
#include<stdio.h> 
#include<stdlib.h> 
#include<unistd.h> 
avro_schema_t student_schema; 


const char*dept, 











/xid 用 于 添加 记录 时 为 
int64 t id=0; 

/* 定 义学 生 模式 ， 拥 有 字段 学 号 、 姓 名 、 学 院 、 电 话 和 年 龄 */ 
#define STUDENT_SCHEMA\ 














建立 学 号 */ 














"{\"type\": \"record\", \ 

\"name\": \"Student\", \ 

\"fields\": [\ 

{\"name\": \"SID\", \"type\": \"long\"}, \ 
{\"name\": \"Name\", \"type\": \"string\"}, \ 
{\"name\": \"Dept\", \"type\": \"string\"}, \ 
{\"name\": \"Phone\", \"type\": \"string\"}, \ 
{\"name\": \"Age\", \"type\": \nint\"}]}" 


/* 把 JSON 定 义 的 模式 解析 成 模式 的 数据 结构 */ 

void init (void) 

{ 

avro_schema error t error; 

if (avro_schema_from_json (STUDENT SCHEMA, 

sizeof (STUDENT SCHEMA), 

&student_schema, &error) ) { 

fprintf (stderr, "Failed to parse student schema\n") ; 
exit (EXIT_FAILURE) ; 

} 


} 

/* 添 加 学 生 记录 */ 

void add_student (avro_file writer 七 db, 
const 

int32_t age) 





const char*name, 


char*phone, 
{ 


avro_datum_t 
avro_datum_t 
avro_datum_t 
avro_datum_t 
avro_datum_t 
avro_datum_t 


student=avro_record ("Student", NULL) ; 
sid_datum=avro_int64 (++id) 
name_datum=avro_string (name) ; 
dept_datum=avro_ string (dept) ; 
age_datum=avro_int32 (age) ; 
phone_datum=avro_string (phone) ; 


/* 创 建 学 生 记 录 */ 





if (avro_ record set (student, 


| |avro_record_set (student, 
| |avro_record_set (student, 
| |avro_record_set (student, 
| |avro_record_set (student, 
fprintf (stderr, "Failed to 
exit (EXIT_FAILURE) ; 


} 

/将 记录 添加 到 数据 库 文件 中 * / 
if (avro file writer append 
fprintf (stderr, "Failed to 
exit (EXIT_FAILURE) ; 





"SID", sid datum) 

"Name", name_datum) 

"Dept", dept datum) 

"Age", age datum) 

"Phone", phone datum) ) { 

create student datum structure") ; 


(db, student) ) { 
add student datum to database") ; 











} 

/* 解 除 引用 ， 释 放 内 存 空间 */ 

avro_datum_decref (sid_datum) ; 

avro_datum_decref (name_datum) $ 
avro_datum_decref (dept_datum) $ 
avro_datum_decref (age_datum) ; 

avro_datum_decref (phone_datum) ; 
avro_datum_decref (student) ; 

fprintf (stdout, "Successfully added%s\n", name) ; 


} 

/* 输 出 数据 库 中 的 学 生 信息 */ 

int show_student (avro file reader t db, 

avro_schema_t reader schema) 

{ 

int rval; 

avro datum t student; 

rval=avro_file reader read (db, reader schema, &student) ; 
if (rval==0) { 

int64 t i64; 

int32 t i32; 

char*p; 

avro_datum_t sid_datum, name_datum, dept_datum, 
phone_datum, age_datum; 

if (avro_record_get (student, "SID", &sid_datum) ==0) { 
avro_int64_get (sid_datum, &i64) ; 

fprintf (stdout, "S"PRId64"", i64); 

} 

if (avro_record_get (student, "Name", &name_datum) ==0) { 
avro_string get (name datum, &p) ; 

fprintf (stdout, "12s", p); 

} 

if (avro_record_get (student, "Dept", &dept_datum) ==0) { 
avro_string get (dept_datum, &p) ; 

fprintf (stdout, "12s", p); 

} 

if (avro_record_get (student, "Phone", &phone datum) ==0) { 
avro_string_get (phone_datum, &p); 

fprintf (stdout, "%12s", p); 

} 

if (avro_record_get (student, "Age", &age datum) ==0) { 
avro_int32_get (age datum, &i32) ; 

fprintf (stdout, "$d", i32); 

} 

fprintf (stdout, "\n"); 

/* 释 放 记 录 */ 

avro_datum_decref (student) ; 

} 




















return rval; 

} 

int main (void) 

{ 

int rval; 

avro_file reader_t dbreader; 

avro: filè writer t db; 

avro_schema_t extraction_schema, name_schema, 
phone_schema; 

int64_t i; 

const char*dbname="student.db"; 

init O; 

/* 如 果 student .db 存在 ， 则 删除 * / 

unlink (dbname) ; 

/* 创 建 数据 库 文件 */ 

rval=avro_file writer create (dbname, student_schema, &db) ; 
if (rval) { 

fprintf (stderr, "Failed to create%s\n", dbname) ; 
exit (EXIT_FAILURE) ; 


} 
/* 向 数据 库 文件 中 添加 学 生 信息 */ 











add_student (db, "Zhanghua", "Law", "15201161111", 25) ; 
add_student (db, "Lili", "Economy", "15201162222", 24) ; 
add_student (db, "Wangyu", "Information", "15201163333", 25) ; 
add_student (db, "Zhaoxin", "Art", "15201164444", 23) ; 
add_student (db, "Sungin", "Physics", "15201165555", 25); 


add student (db, "Zhouping", "Math", "15201166666", 23) ; 
avro_file writer _ close (db) ; 

fprintf (stdout, "\nPrint all the records from database\n") ; 
/* 读 取 并 输出 所 有 的 学 生 信息 */ 

avro_file reader (dbname, &dbreader) ; 

for (i=0; i<id; i++) { 

if (show_student (dbreader, NULL) ) { 

fprintf (stderr, "Error printing student\n") ; 

exit (EXIT_FAILURE) ; 

} 

} 

avro file reader close (dbreader) ; 

/* 输 出 学 生 的 姓名 和 电话 信息 */ 

extraction schema=avro_ schema record ("Student", NULL) ; 
name_ schema=avro_schema string © ; 
phone_schema=avro_schema_string (); 
avro_schema record field append (extraction schema, 

"Name", name_schema) ; 

avro_schema_record_field_append (extraction_schema, "Phone", 


phone_schema) ; 
/* 只 读 取 每 个 学 生 的 姓名 和 电话 */ 

















fprintf (stdout, 


"\n\nExtract Name&Phone of the records from database\n") ; 


avro_ file reader (dbname, &dbreader) ; 

for (i=0; i<id; i++) { 

if (show_student (dbreader, extraction schema) ) { 
fprintf (stderr, "Error printing student\n") ; 
exit (EXIT_FAILURE) ; 

} 

} 

avro_file_reader_close (dbreader) ; 
avro_schema_decref (name_schema) ; 
avro_schema_decref (phone_schema) ; 
avro_schema_decref (extraction _ schema) ; 

/* 最 后 释放 学 生 模式 */ 

avro_schema_decref (student_schema) ; 

return 0; 


} 





| prm} 





如 果 要 编译 上 面 的 C 文 件 ， 则 需要 安装 Avro C。 首 先 可 以 从 网 站 








http: //www.apache.org/dyn/closer.cgi/avro/ 选 择 镜像 下 载 avro-c-1.6.3.tar.gz 文 件 ， 使 


























命令 tar- 





zxvf avro-c-1.6.3.tar.gz 解 压 后 进入 其 目录 ， 并 使 用 命令 ./configure 和 make 、make install 进 行 编 
译 安装 。 注 意 ， 需 要 在 root 的 权限 下 进行 安装 。 安 装 成 功 后 ， 在 编译 C 语 言 前 需要 将 libavro 加 























入 动态 链接 库 中 ， 使 用 命令 : 














| 


export LD_LIBRARY_PATH=/usr/local/lib: $LD_LIBRARY_PATH 


一 


然后 对 程序 进行 编译 : 


| 


gcc-o student-lavro student.c 


OO 一 一 一 ==; 


运行 生成 的 执行 文件 可 得 到 如 图 16-5 所 示 的 结果 。 运 行 时 在 当前 目录 下 生成 student.db 对 





























象 容器 文件 ， 可 以 使 用 命令 cat 查 看 文件 中 的 内 容 一 先 存储 学 生 的 模式 ， 然 后 存储 学 和 














信息 ， 具 体内 容 可 参见 16.1.4 节 “对 象 容器 文件 "和 图 16-3。 





ERNEK 


15261164444 


15201165555 
15201166666 


me of the records from dstabase 
81161111 



































F 面 介绍 Avro 的 C++ 应 用 程序 接口 。 虽 然 Avro 并 不 需要 使 用 代码 生成 器 ， 但 是 使 用 代码 
生成 工具 可 以 更 简单 地 使 用 Avro C++ 库 。 代 码 生 成 器 既 可 以 读 取 模 式 并 输出 模式 数据 的 
C++ 对 象 ， 也 可 以 产生 代码 来 序列 化 或 反 序列 化 对 象 等 所 有 复杂 的 译 码 工作 。 即 使 使 
C++ 核心 库 来 编写 序列 化 器 或 者 解析 器 ， 产 生 的 代码 也 可 以 说 明 如 何 使 用 这 些 库 。 下 面 举 一 
个 使 用 模式 的 简单 例子 ， 此 例 用 来 表示 一 个 虚数 : 
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EAA 
{ 
"type": "record", 
"name": "complex", 
"fielde": [ 
{"name": "real", "type": "double"}, 
{"name": "imaginary", "type": "double"} 
] 
} 


i 


























假设 JSON 可 用 来 表示 存储 在 名 为 imaginary 文 件 中 的 模式 ， 那 么 产生 代码 分 成 两 步 : 


第 一 步 : 


= 
precompile<imaginary>imaginary.flat 
二 一 











预 编译 会 将 模式 转化 为 代码 生成 器 所 使 用 的 中 间 格 式 ， 中 间 文 件 是 模式 的 文本 形式 ， 它 
是 通过 对 模式 类 型 树 深度 优先 遍历 得 到 的 。 

















第 二 步 : 


| 
python scripts/gen-cppcode.py--input=example.flat-- 
output=example.hh--namespace=Math 


= 





上 面 的 命令 告诉 代码 生成 器 去 读 取 模式 作为 输入 ， 并 且 在 example.hh 中 生成 C++ 头 文 
件 。 可 选 参数 将 指定 对 象 放置 的 命名 空间 ， 如 果 没 有 指定 命名 空间 ， 仍 可 得 到 默认 的 命名 空 
间 。 下 面 是 所 产生 代码 的 开始 部 分 : 
































= 
namespace Math{ 
struct complex{ 
complex O: 
real O, 
imaginary O 
{} 
double real; 
double imaginary; 


} 
| | 











以 上 代码 是 用 C++ 表 示 的 模式 ， 它 创建 记录 、 默 认 构 造 函 数 并 为 记录 的 每 个 字段 建立 成 
员 。 下 面 是 序列 化 数据 的 例子 : 














SSS 
void serializeMyData () 
{ 
Math: complex c; 


c.real=10.0; 

c.imaginary=20.0; 

//writer 是 实际 I/O 和 缓冲 结果 的 对 象 

avro: Writer writer; 

// 在 对 象 上 调用 writer 

avro: serialize (writer, c); 

// 这 时 ，writer 将 序列 化 后 的 数据 存储 在 缓冲 区 中 
InputBuffer buffer=writer.buffer O) ; 
} 


























二 一 


















































使 用 生成 的 代码 ， 调 用 对 象 的 avro: serialize O 函数 可 以 序列 化 数据 ， 通 过 调用 avro: 
InputBuffer 对 象 可 以 获取 数据 ， 通 过 网 络 可 以 发 送 文件 。 下 面 读 取 序列 化 的 数据 到 对 象 中 : 














tt 





= 


void parseMyData (const avro: InputBuffer&myData) 
{ 

Math: complex c; 

//readet 为 实际 I/o 读 取 的 对 象 

avro: Reader reader (myData) ; 

// 在 对 象 上 调用 reader 

avro: parse (reader, c); 

// 此 时 ，c 中 存放 的 是 反 序列 化 后 的 数据 

} 























A 





























在 下 面 的 代码 中 avro: serialize () 函数 和 avro: parse () 函数 可 用 于 处 理 用 户 数据 
型 ， 具 体 实现 如 下 : 


i 


template<typename Serializer> 

inline void serialize (Serializer&s, const complex&val, 
const boost: true_type&) 

{ 

s.writeRecord () ; 

serialize (s, val.real) ; 

serialize (s, val.imaginary) ; 

s.writeRecordEnd () ; 

} 

template<typename Parser> 

inline void parse (Parser&p, complex&val, const boost: 
true_type&) { 

p.readRecord () ; 

parse (p, val.real) ; 

parse (p, val.imaginary) ; 


p.readRecordEnd () ; 
} 
1 





以 下 内 容 也 可 加 入 avro 命 名 空间 中 : 


ee | 
template<>struct is_serializable<Math: complex>: public 

boost: true_type{}; 

Ml 














这 样 为 复杂 结构 建立 类 型 特征 ， 告 诉 Avro 对 象 的 序列 化 和 解析 功能 可 














除了 上 面 介绍 的 使 用 Avro C++ 代码 生成 器 来 读 写 对 象 外 ，Avro C++ 也 可 以 读 入 JSON 模 
式 。 库 函数 提供 了 一 些 工具 来 读 取 存储 在 JSON 文 件 或 字符 串 中 的 模式 ， 如 下 所 示 ; 


| 

void readSchema () 

{ 

//My schema is stored in a file called"example" 

std: ifstream in ("example") ; 

avro: ValidSchema mySchema; 

avro: compileJsonSchema (in, mySchema) ; 

} 
Eee 





























上 面 代码 读 取 文件 并 将 JSON 模 式 解 析 成 avro: ValidSchema 类 型 的 对 象 。 如 果 模 式 是 无 
效 的 ， 将 无 法 建立 有 效 模式 (ValidSchema) 对 象 并 抛 出 异常 ， 那 么 如 何 从 JSON 存 储 的 模式 
中 建立 有 效 模式 对 象 呢 ? 

















有 效 模式 CValidSchema) 可 以 保证 开发 者 实际 写 入 的 类 型 匹配 模式 所 期 望 的 类 型 。 现 
在 重 写 序 列 化 函数 并 需要 检查 模式 : 
Eee 


void serializeMyData (const ValidSchema&mySchema) 
{ 

Math: complex c; 

c.real=10.0; 

c.imaginary=20.0; 
//ValidatingWriter 保 证 序列 化 写 入 正确 类 型 的 数据 

avro: ValidatingWriter writer (mySchema) ; 

try{ 














avro: serialize (writer, 


// 这 时 ， Sie a Ee 

} 

catch (avro: Exception&e) { 

std: cerr<<"ValidatingWriter encountered an error: "<< 


e.what O; 


} 
} 


| 一 














这 段 代 码 和 前 面 的 区 别 就 是 用 ValidatingWriter 代 替 了 Writer object。 如 果 序 列 化 函数 错 





误 地 写 入 不 匹配 模式 的 类 型 ， 那 么 ValidatingWriter 将 抛 出 异常 。ValidatingWriter 会 在 写 入 数 


据 的 时 候 增加 很 多 处 理 过 程 。 对 了 








H 





产生 的 代码 则 没有 必要 进行 验证 ， 因 为 自动 生成 的 代码 是 











匹配 模式 的 。 然 而 ， 在 写 入 和 测试 自己 序列 化 的 代码 时 加 上 安全 验证 还 是 必要 的 。 解 析 数 据 
时 也 可 以 使 用 有 效 模式 ， 它 不 仅 可 以 确保 解析 器 读 取 的 类 型 匹配 模式 有 效 ， 还 提供 了 接口 ， 


过 该 接口 可 以 查询 下 一 个 期 望 的 类 型 和 记录 成 员 字段 的 名 称 。 下 面 的 例子 介绍 了 如 何 使 















































API: 


二 一 


void parseMyData (const avro: InputBuffer&myData, Const avro: 


ValidSchema &mySchema) 


{ 

// 手 动 解析 数据 ， 解 析 对 象 将 数据 绑 定 到 模式 上 

avro: Parser<ValidatingReader>parser (mySchema, myData) ; 
assert (nextType (parser) ==avro: AVRO_RECORD) ; 
// 开 始 解析 

parser.readRecord () ; 

Math: complex c; 

std: string recordName; 

assert (currentRecordName (parser, recordName) ==true) ; 
assert (recordName=="complex") ; 

std: string fieldName; 

for (int i=0; i<2; ++i) { 

assert (nextType (parser) ==avro: AVRO DOUBLE) ; 
assert (nextFieldName (parser, fieldName) ==true) ; 
if (fieldName=="real") { 

c.real=parser.readDouble () ; 

} 

else if (fieldName=="imaginary") { 
c.imaginary=parser.readDouble () ; 

} 

else{ 





std: cout<<"I did not expect that! \n"; 
} 

} 

parser.readRecordEnd () ; 

} 


一 


上 面 的 代码 表明 ， 如 果 编 译 时 不 知道 模式 ， 也 可 以 通过 写 出 解析 数据 的 代码 在 运行 时 读 
取 模 式 ， 并 且 查 询 ValidatingReader 来 了 解 序列 化 数据 的 内 容 。 














在 自己 的 代码 中 使 用 对 象 来 建立 模式 是 允许 的 ， 每 个 原始 类 型 和 复合 类 型 都 有 模式 对 
象 ， 并 且 它 们 拥有 共同 的 Schema 基 类 。 下 面 是 一 个 为 复数 记录 数组 建立 模式 的 例子 : 























| 
void createMySchema () 


{ 

/ /首先 建立 复数 类 型 

avro: RecordSchema myRecord ("complex") ; 

// 在 记录 中 加 入 字段 〈 每 个 字段 又 是 一 个 模式 ) 

myRecord.addField ("real", avro: DoubleSchema () ) ; 
myRecord.addField ("imaginary", avro: DoubleSchema () ) ; 
// 这 个 复数 记录 和 之 前 使 用 的 一 样 ， 下 面 为 这 些 记录 的 数组 建立 模式 

avro: ArraySchema complexArray (myRecord) ; 

// 如 果 模 式 是 无 效 的 将 抛 出 
avro: ValidSchema validComplexArray (complexArray) ; 
// 这 样 建立 好 了 模式 

// 输 出 到 屏幕 上 

validComplexArray.toJson (std: cout) ; 

} 


| 
































以 上 代码 建立 的 模式 可 能 是 无 效 的 ， 因 此 ， 为 了 使 用 模式 ， 需 要 将 它 转 化 为 ValidSchma 
对 象 。 执 行 上 述 代码 可 以 得 到 : 

















TT | 


{ 


"type": "array", 
"items": { 

"type": "record", 
"name": "complex", 
"fields: T 

{ 

"name": "real", 


"type": "double" 


J> 

{ 

"name": "imaginary", 
"type": "double" 

} 


] 
} 
} 


| 一 





随 着 时 间 的 变化 ， 程 序 模式 期 望 的 数据 可 能 与 之 前 存储 的 数据 不 同 ， 为 了 把 一 个 模式 转 
化 为 另 一 个 模式 ，Avro 提 供 了 不 完全 一 样 的 模式 规则 。 这 种 情况 下 ， 代 码 生 成 工具 就 有 
了 ， 对 于 每 个 生成 的 结构 都 会 建立 一 个 用 来 读 取 数据 的 特别 索引 结构 ， 即 使 数据 是 用 不 同 的 
模式 写 的 。 在 example.hh 中 的 索引 结构 如 下 : 




































































一， 
class complex Layout: public avro: CompoundOffset{ 
public: 
complex Layout (size_t offset): 
CompoundOffset (offset) 
{ 
add (new avro: Offset (offsettoffsetof (complex, real) ) ) ; 
add (new avro: Offset (offsettoffsetof (complex, 
imaginary) ) ); 
} 
}s 
—_—_—_—_—_—_—_—_—_—_—— I 


数据 前 若是 float 类 型 而 不 是 double 类 型 ， 根 据 模式 解决 规则 ，floats 可 以 升级 为 doubles， 
只 要 新 旧 模 式 都 有 用 ， 就 会 建立 一 个 动态 的 解析 器 来 读 取 代码 生成 结构 的 数据 。 如 下 所 示 : 


























es 
void dynamicParse (const avro: ValidSchema&writerSchema, 
const avro: ValidSchema&readerSchema) { 
// 实 例 化 布局 对 象 
Math: complex_Layout layout; 
// 创 建 已 知 类 型 布局 和 模式 的 模式 解析 器 
resolverSchema (writerSchema, readerSchema, layout) ; 
// 设 置 reader 
avro: ResolvingReader reader (resolverSchema, data); 
Math: complex c; 
// 执 行 解析 
avro: parse (reader, c); 


// 这 时 ，c 中 存放 的 是 反 序列 化 后 的 数据 





16.3 Avro 的 Java 实 现 


本 节 主 要 介绍 Avro 在 Java 中 的 实现 。Java API 现 在 的 版 本 是 1.6.3， 其 中 主要 的 包 有 如 下 
几 个 。 











XY 


org. apache.avro: Avro 内 核 类 。 
org. apache.avro.file: 存放 Avro 数据 的 文件 容器 相关 类 。 
org. apache.avro.generic: Avro 数据 的 一 般 表 示 类 。 


org. apache.avro.io: Avro 输入 /输出 工具 类 。 


org. apache.avro.io.parsing: Avro 格式 的 LL (1) 语法 实现 。 




















org. apache.avro.ipc: 进程 间 调 持 类 。 








org. apache.avro.ipc.stats: 收集 和 显示 IPC 统 计数 据 的 工具 类 。 














org. apache.avro.ipe.trace: 追踪 RPC 递 归 调用 的 相关 类 。 























org. apache.avro.mapred: 使 用 Avro 数据 运行 Hadoop MapReduce， 其 Map 和 Reduce 功 能 

















Java 实 现 。 




















org. apache.avro.mapred.tether: 使 用 Avro 数据 运行 Hadoop MapReduce， 其 Map 和 
Reduce 功 能 在 子 进程 运行 。 




















org. apache.avro..reflect: 使 用 Java 映 射 为 存在 的 类 生成 格式 和 协议 。 








org. apache.avro.specific: 为 格式 和 协议 生成 特定 的 Java 类 。 








org. apache.avro.tool: Avro 命 令 行 工具 类 。 





org. apache.avro.util: 普通 工具 类 。 








Y 








于 上 面 各 包 中 包含 的 类 的 具体 使 用 可 参见 Java API， 下 面 通过 简单 的 例子 介绍 各 类 的 
关 生 信息 的 存储 和 读 取 ;: 












































We PI Java cH" 





package cn.edu.ruc.cloudcomputing.book.chapter16; 

/*student.java*/ 

import java.io.File; 

import java.io.IOException; 

import org.apache.avro.Schema; 

import org.apache.avro.file.DataFileReader; 

import org.apache.avro.file.DataFileWriter; 

import org.apache.avro.generic.GenericData; 

import org.apache.avro.generic.GenericDatumReader; 

import org.apache.avro.generic.GenericDatumWriter; 

import org.apache.avro.generic.GenericData.Record; 

import org.apache.avro.util.Utf8; 

public class student{ 

String fileName="student.db"; 

String prefix="{\"type\": \"record\", \"name\": \"Student\", 
\"fields\": ["; 

String suffix="]}"s 

String fieldSID="{\"name\": \"SID\", \"type\": \"int\"}"; 

String fieldName="{\"name\": \"Name\", \"type\ \"string\"}"; 

String fieldDept="{\"name\": \"Dept\", \"type\": \"string\"}"s; 

String fieldPhone="{\"name\": \"Phone\", \"type\": 
\"string\"}"; 

String fieldAge="{\"name\": \"Age\", \"type\": \"int\"}"s5 





Schema 

studentSchema=Schema.parse (prefix+fieldSID+", "+fieldName+", "+ 
fieldDept+", "+fieldPhone+", "+fieldAgetsuffix) ; 
Schema 

extractSchema=Schema.parse (prefix+fieldName+", "+fieldPhonetsuff: 
int SID=0; 


public static void main (String[]Jargs) throws IOException{ 
student st=new student () ; 

st.init ©; 

st.print ©; 

st.printExtraction O ; 

} 

[ee 

* 初 始 化 添加 学 生 记 录 

和 高 六 

public void init © throws IOException{ 
DataFileWriter<Record>writer=new DataFileWriter<Record> ( 
new GenericDatumWriter<Record> (studentSchema) ) .create ( 
studentSchema, new File (fileName) ) ; 





try{ 


writer.append (createStudent ("Zhanghua", "Law", "15201161111", 
25) Y4 

writer.append (createStudent ("Lili", "Economy", "15201162222", 
24) ); 

writer.append (createStudent ("Wangyu", "Information", 

"15201163333", 25) ); 

writer.append (createStudent ("Zhaoxin", "Art", "15201164444", 
23) Js 


writer.append (createStudent ("Sungin", "Physics", "15201165555 
25) Xs 

writer.append (createStudent ("Zhouping", "Math", "15201166666" 
23) ); 

}finally{ 

writer.close © ; 

} 

} 

[** 

* 将 学 

**/ 

private Record createStudent (String name, String dept, 
String phone, int age) { 

Record student=new GenericData.Record (studentSchema) ; 

student.put ("SID", (++SID) ); 

student.put ("Name", new Utf8 (name) ) ; 

student.put ("Dept", new Utf8 (dept) ); 

student.put ("Phone", new Utf8 (phone) ) ; 

student.put ("Age", age) ; 

System.out .println ("Successfully added"+name) ; 

return student; 

} 

[** 

* 输 出 学 生 信息 

*x*/ 

public void print () throws IOException{ 

GenericDatumReader<Record>dr=new GenericDatumReader<Record> 
O; 

dr.setExpected (studentSchema) ; 

DataFileReader<Record>reader=new DataFileReader<Record> 
(new 

File (fileName) , dr); 

System.out.printlin ("\nprint all the records from 
database") ; 

try{ 

while (reader.hasNext () ) { 

Record student=reader.next () ; 

System.out .println (student.get ("SID") .toString © 





tt 





E 信 息 添 加 到 记录 











+""+student. 

get ("Name") +""+student.get ("Dept") 
+""+student.get ("Phone") +" 

"+student.get ("Age") .toString O ); 

} 

}finally{ 

reader.close () ; 

} 

} 

/** 

* 输 出 学 生 姓 名 和 电话 

**/ 

public void printExtraction () throws IOException{ 

GenericDatumReader<Record>dr=new GenericDatumReader<Record> 
O; 

dr.setExpected (extractSchema) ; 

DataFileReader<Record>reader=new DataFileReader<Record> 
(new 

File (fileName) , dr); 

System.out .println ("\nExtract Name&Phone of the records from 
database") ; 

try{ 

while (reader.hasNext () ) { 

Record student=reader.next () ; 

System.out.println (student.get ("Name") .toString () 
+""+student. 

get ("Phone") .toString O +"\t" ; 

} 

}finally{ 

reader.close () ; 

} 

} 

} 


一 








编译 studentjava 不 仅 需 要 从 网 站 http: //www.apache.org/dy n/closer.cgi/avro/ 下 载 avro- 
1.6.3.jar 等 相关 类 ， 还 需要 从 网 站 http: /wiki.fasterxmlcom/JacksonDownload 下 载 jackson- 
core-asl-1.9.7.jar 和 jackson-mapper-asl-1.9.7.jar 这 些 Java 中 JSON 生 成 的 解析 相关 类 。 编 译 后 
运行 文件 的 结果 如 图 16-6 所 示 ， 同 时 生成 student.db 文 件 ， 可 以 通过 查看 该 文件 中 的 内 容 来 了 
解 对 象 容器 文件 的 格式 。 
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Trom database 





编译 运行 student 文 件 


16.4 GenAvro (Avro IDL) 语言 








为 了 让 开发 者 在 声明 模式 时 使 用 一 种 与 诸如 Java、C++、Python 等 普通 编程 语言 相似 的 
方法 ，Avro 提 供 了 GenAvro 语 言 。GenAvro 是 声明 Avro 模式 的 高 级 语言 《最 新 版 本 中 称 为 
AvroIDL) ， 虽 然 它 目前 还 没有 完全 确定 下 来 ， 但 不 会 有 主要 的 变化 。 之 前 在 其 他 构架 如 
接口 描述 语言 ADL) 的 开发 者 可 能 会 对 Avro IDL 语 言 有 



































iz 


Thrift, Protocol. CORBA 4# 
亲切 感 。 

















每 个 Avro IDL 文 件 定义 了 单一 的 Avro 协议 ， 并 产生 一 个 JSON 格 式 的 Avro 协议 文件 ， 其 扩 
展 名 为 .avpr。 为 了 使 Avro IDL (新 版 本 中 为 .avdl) 文件 转化 为 .avpr 文 件 ， 必 须 使 用 IDL 工 具 
进行 处 理 ， 例 如 : 



































一 
$java-jar avroj-tools.jar idl 
src/test/idl/input/namespaces.avdl/tmp/namespaces.avpr 
Shead/tmp/namespaces.avpr 
{ 
"protocol": "TestNamespace", 
"namespace": "avro.test.protocol", 


二 一 








这 个 IDL 工 具 也 可 以 处 理 从 stdin 输 入 的 数据 或 输出 到 stdout 的 数据 ， 更 多 的 信息 可 以 用 idL- 
-help 命 令 查询 。 一 个 Avro IDL 文 件 只 包含 一 个 协议 定义 ， 较 小 的 协议 可 由 以 下 代码 定义 : 














一 
protocol MyProtocol{ 


} 

这 相当 于 以 下 的 JSON 协 议定 义 : 

{ 

"protocol": "MyProtocol", 
"types": [], 

"messages": { 

} 

} 


一 











使 用 @namespace 注 解 后 ， 协 议 的 命名 空间 可 能 会 改变 ， 代 码 如 下 : 

















A 
@namespace ("mynamespace") 
protocol MyProtocol{ 


} 


TTT | 


在 Avro IDLY 
议 包 含 以 下 项 目 : 


消息 的 


引入 文件 








Ph， 可 以 通过 使 


定义 。 




















异 式 的 定义 ， 包 括 记录 、 错 误 、 枚 举 和 固定 型 。 

















协议 和 模式 文件 的 引 




















以 




















入 


au 


a 





下 面 介 绍 各 种 类 型 的 定义 方法 。 


DL 


文件 使 














ih 


以 下 三 种 方式 之 一 : 


im port idl“ foo.avdl” - 











引入 JSON 协 议 文件 使 








语句 import protocol'foo.avpr”。 











引入 JSON 模 式 文件 使 











语句 import schema“foo.avsc”。 

















@namespace 为 所 注解 的 元 素 指定 属性 。Avro IDL 中 的 协 


1) 定义 枚 举 。 在 Avro IDL 中 使 用 类 似 于 C 或 Java 的 语法 来 定义 枚 举 ， 代 码 如 下 : 














Eee 
enum Suit{ 
SPADES, DIAMONDS, CLUBS, HEARTS 


} 


人 


需要 注意 的 是 ， 不 像 JSON 格 式 ， 在 Avro IDL 中 匿名 的 枚 举 是 无 法 定义 的 。 

















2) 定义 固定 长 度 的 字段 。 定 义 一 个 固定 长 度 的 字段 可 以 使 

















以 下 语法 : 


| | 
fixed MD5 (16); 
一 


该 例子 定义 了 一 个 包含 16 字 节 名 称 为 MD5 的 固定 长 度 类 型 。 


3) 定义 记录 和 错误 。 在 Avro IDL 中 定义 记录 的 语法 类 似 于 C 中 的 结构 体 定义 ， 代 码 如 
Ps 








一 
record Employee{ 
string name; 
boolean active; 
long salary; 
} 
一 


以 上 例子 定义 了 一 个 带 有 三 个 字段 称 为 “Employee” 的 记录 ， 错 误 类 型 的 定义 只 需要 将 
record 改 为 error 就 可 以 了 ， 代 码 如 下 : 


SSS 
error Kaboom{ 
string explanation; 
int result_code; 
} 
—_—_—_—_—_—_—_—_—— I 











记录 和 错误 中 的 字段 包括 类 型 和 名 称 ， 也 可 以 有 属性 注解 。Avro IDL 语 言 中 引用 的 类 型 
必须 为 以 下 之 一 : 














原始 类 型 ; 











已 命名 的 模式 ， 该 模式 在 同一 协议 中 且 使 用 前 已 经 定义 ; 











复杂 类 型 数据、 映射 或 者 联合 )。 
面 分 别 介 绍 它 们 。 


1) Avro IDL 支 持 的 原始 类 型 与 Avro 的 JSON 格 式 支持 的 类 型 一 样 ， 包 括 int、long、 


string、boolean、float、double 、null 和 by tess 





2) 如 果 相 同 的 Avro IDL 文 件 中 已 经 定义 了 指定 的 模式 且 为 原始 类 型 ， 那 么 可 以 通过 名 














称 直接 引用 ， 代 码 如 下 : 


一 
record Card{ 
Suit suit; // 引 用 之 前 定义 的 枚 举 类 型 card 
int number; 
} 
| 
































3) 复杂 类 型 。 数 组 类 型 的 定义 方法 与 C++ 或 Java 中 的 定义 方式 类 似 。 任 何 类 型 t 的 数组 
写 为 array <t>. Pu, FEKAS array <string>， 记 录 Foo 的 多 维 数组 写 为 array < 
array <Foo> >. WAJRA PAARE, GFR BLS Amap<t>, ， 和 JSON 模 式 
格式 一 样 ， 所 有 的 映射 包含 string 类 型 的 键 。 联 合 类 型 写 为 union{ftypeA, typeB,typeC， 

Seed }， 例 如 ， 下 面 这 个 记录 包含 可 选 的 字符 串 字 段 : 


一 
record RecordWithUnion{ 
union{null, string}optionalString; 
} 
一 











需要 注意 的 是 ，Avro IDL 中 联合 的 限制 与 JSON 格 式 的 一 样 ， 即 记录 不 能 包含 相同 类 型 的 
多 种 元 素 。 

















使 用 Avro IDL 协 议定 义 RPC 消 息 的 语法 与 C 语 言 头 文件 或 Java 接 口 的 方法 声明 相似 。 例 如 
带 有 参数 foo 和 bar 且 返回 int 值 的 RPC 消 息 定义 为 : 


一 
int add (int foo, int bar); 
oOo 




















定义 一 个 没有 返回 值 的 消息 可 以 使 用 别名 void， 相 当 于 Avro 的 null 类 型 ， 如 下 所 示 : 


下 一， 
void logMessage (string message) ; 
一 























如 果 在 相同 的 协议 之 前 已 经 定义 了 一 个 错误 类 型 ， 那 么 可 以 使 用 下 面 语法 声明 消息 抛 出 
这 个 错误 : 


— 
void goKaboom () throws Kaboom; 


ETT 




















如 果 定 义 一 个 one-way 的 消息 ， 只 需 在 参数 后 面 使 用 关键 字 oneway ， 代 码 如 下 : 


= 
void fireAndForget (string message) oneway; 


二 一 











最 后 介绍 其 他 的 Avro IDL 语 言 特征 。 





(1) 注释 











Avro IDL 语 言 支持 所 有 的 Java 类 型 注释 。 每 行 /后 面 的 内 容 将 被 忽略 ， 用 上 # 和 的 可 以 注释 
多 行内 容 。 











(2) 区 别 标识 














当 语言 需要 保留 字 来 作为 标识 时 ， 需 要 用 符号 ”“" 来 区 别 标识 。 例 如 ， 定 义 一 个 带 有 名 称 
error 的 消息 : 














一 + 
voiderror () ; 
SaaS 











这 个 语法 可 以 使 用 在 任何 有 标识 的 地 方 。 











G) 排序 和 命名 空间 的 注释 














在 Avro IDL 中 Java 风 格 的 注释 可 以 用 来 给 类 型 增加 额外 的 属性 。 例 如 ， 指 定 记录 中 字段 
的 排序 顺序 可 以 使 用 @order， 如 下 所 示 : 





























[| 
record MyRecord{ 
@order ("ascending") myAscendingSortField; 
@order ("descending") myDescendingField; 
@order ("ignore") myIgnoredField; 


二 一 


当然 注释 也 可 以 放 在 字段 类 型 的 前 面 ， 如 ; 


= == 一 = 
record MyRecord{ 
@java-class (“java.util.ArrayList”) array string myStrings; 
} 
Fo = ==SSSSS===9==4 








似 的 ， 当 定义 一 个 指定 模式 时 ， 使 用 @namespace 可 以 修改 命名 空间 ， 如 : 











一 
@namespace ("org.apache.avro.firstNamespace") 
protocol MyProto{ 
@namespace ("org.apache.avro.someOtherNamespace") 
record Foo{} 
record Bar{} 
} 
—_—_—_—_—_—_—_——— I 


这 里 在 firstNamespace 命 名 空间 中 定义 了 一 个 协议 ， 记 录 Foo 定 义 在 
someOtherNamespace 中 ，Bar 定 义 在 firstNamespace 中 ， 且 从 容器 中 继承 了 默认 值 。 























对 于 类 型 和 字段 的 别名 可 以 用 注释 @aliases 来 指定 ， 如 下 所 示 : 








二 一 


@aliases (["org.old.OldRecord", "org.ancient.AncientRecord"]) 
record MyRecord{ 
string@aliases (["oldField", "ancientField"]) myNewField; 


} 
ETT 


下 面 是 Avro IDL 文 件 的 完整 例子 : 


ii 
[xe 
*An example protocol in Avro IDL 
Ef 
@namespace ("org.apache.avro.test") 
protocol Simple{ 
@aliases (["org.foo.Kindof"]) 
enum Kind{ 
FOO, 


BAR, //the bar enum value 

BAZ 

} 

fixed MD5 (16) ; 

record TestRecord{ 

@order ("ignore") 

string name; 

@order ("descending") 

Kind kind; 

MD5 hash; 

union{MD5, null}@aliases (["hash"]) nullableHash; 

array<long>arrayOfLongs; 

} 

error TestError{ 

string message; 

} 

string hello (string greeting) ; 

TestRecord echo (TestRecordrecord) ; 

int add (int argl, int arg2) ; 

bytes echoBytes (bytes data) ; 

voiderror () throws TestError; 

void ping © oneway; 

} 
OOO: | 


16.5 Avro SASL 概 述 


SASL (Simple Authentication an 
验证 和 安全 的 框架 ， 它 将 验证 机 制 从 











据 完整 性 和 数据 加 密 服务 ， 


可 SASL 所 支持 的 验证 机 制 ， 同 


样 











户 程 序 协议 中 





Security Layer， 简 单 验 证 安全 层 ) 是 网 络 协议 中 提供 

















分 离 出 来 ， 使 得 采 


























议 ， 其 中 安全 传输 层 协议 是 为 因 特 


























API 进 行 编码 ， 
profile， 即 如 何 使 


SASL 协 商 过 程 可 以 看 成 是 客户 端 和 服务 器 使 




















方法 避免 了 对 4 
SASL 进 行 验证 协商 。 下 面 对 Avro RPC 采 


持 SASL 





g 





待定 机 











4 





户 协议 ， 


网 上 通信 提供 安全 性 
所 的 依赖 。 采 


K 


SASL 的 程序 可 以 使 


也 支持 代理 验证 。SASL 提 供 的 数据 安全 层 能 够 提供 数 
RESA SLAR H Fi 
的 加 密 协议 。 开 发 者 可 通过 SASL 对 通 





的 安全 传输 层 协 











SAS 



































特定 











L 的 协议 需要 定义 SASL 
的 SASL 进 行 介绍 。 


的 SASL 机 制 、 在 连接 的 基础 上 进行 


一 系列 消息 的 交互 。 客 户 端 通过 发 送 带 有 初始 消息 (可 能 为 空 ) 的 机 制 名 称 ( 这 里 是 SASL) 
来 协商 过 程 。 协 商 过 程 一 直 伴随 着 消息 的 交换 直 型 
由 有 具体 的 机 制 决定 ， 如 果 协 商 成 功 就 可 以 通过 连接 进行 会 话 ， 否 则 将 被 抛弃 。 一 些 机 制 在 协 


商 之 后 会 继续 处 理会 话 


修改 。 





Avro SASL 协 商 使 


0: START 开始 ) 


1: CONTINUE (44 






































的 数据 (如 对 数据 进行 加 密 〉， 而 一 些 机 制 会 提 





于 客户 端 初始 消息 中 ; 








， 使 











2: FAIL (失败 ) ， 协 商 失败 ; 


于 协商 进行 中 ; 





3: COMPLETE (完成 ) ， 成 功 完成 协商 。 


开始 消息 的 格式 是 : 


某 一 方 表明 协商 成 功 或 失败 。 消 息 的 内 容 


间 定 会 话 数据 传输 不 需 


1014 字 节 的 机 制 名 称 的 长 度 | 机 制 名 称 14 字 节 的 有 效 负载 的 长 度 | 有 效 负载 数据 | 


1114 字 节 的 有 效 负 载 的 长 度 | 有 效 负载 数据 | 
| 


失败 消息 的 格式 是 : 


SS — oe 
1214 字 节 的 消息 长 度 1UTF-8 的 消息 | 
ee | 


完成 消息 的 格式 是 : 


1314 字 节 的 有 效 负载 的 长 度 | 有 效 负载 数据 | 
Eee 


协商 以 客户 端 发 送 START 命 令 开始 ，START 命 令 
制 的 有 效 负 载 数据 。 然 后 ， 服 务 器 和 客户 端 交换 一 些 CONTINUE 消 息 ， 每 个 消息 包含 由 安全 
生成 的 下 个 消息 的 有 效 负载 数据 。 一 旦 客户 端 或 者 服务 器 发 送 FAIL 消 息 ， 协 商 就 会 失 
败 ， 失 败 消息 中 包含 UTF-8 编 码 的 文本 。 只 要 接收 到 或 发 送 了 FAIL 消 息 ， 或 者 在 协商 过 程 中 


HLHI 














bh 包 含 客户 端 选 定 的 机 制 名 称 和 指定 机 




















发 生 了 任何 错误 ， 基 于 此 次 连接 的 通信 就 必须 结束 。 如 果 客 户 端 或 服务 器 发 送 COMPLETE 消 


息 ， 那 么 协商 将 成 功 完成 ， 会 话 数 据 可 








以 通过 此 次 连接 进行 传输 直到 一 方 关 闭 。 


如 果 SASL QOP (Quality of Protection， 品 质保 证 ) 没有 进行 协商 ， 则 基于 此 次 连接 的 


























读 / 写 无 需 修改 ， 特 别 是 传输 的 消息 使 用 了 Avro 框架 并 采用 了 下 面 的 形式 : 














| 
14 字 节 的 框架 长 度 | 框 架 数 据 |.….1 4 个 零 字 节 | 
二 





如 果 SASL QOP 协 商 且 成 功 ， 则 此 次 连接 后 的 消息 传输 使 


制 对 非 空 的 框架 进行 封装 ， 











装 ， 之 后 传送 到 应 
的 通信 必须 结束 。 






































QOP。 写 数据 时 使 用 安全 机 


读 取 数据 时 需要 解 开 。 完 整 的 框架 必须 传送 到 安全 机 制 进行 解 封 











程序 中 。 如 果 在 封装 、 解 封装 或 者 框架 处 理 时 发 生 错误 ， 那 么 此 次 连接 

















SASL 的 匿名 机 制 很 容易 实现 ， 特 别 之 处 在 于 ， 一 个 初始 的 匿名 请 求 可 以 用 以 下 静态 序列 
作为 前 组 : 

















ee 
1010091RANONYMOUS100001 
eo. oh 


WAR IRS a (EF WLM, UC NN As eC TAL, BUTE BL il) Be FE 
否 为 ANONYMOUS”， 然 后 对 带 有 COMPLETE 消 息 的 初始 响应 前 加 上 前 级 : 























3 
13100001 
ne | 


如 果 匿 名 服务 器 接收 到 带 有 其 他 机 制 名 称 的 请 求 ， 那 么 它 将 发 送 FAIL 消 息 : 


二 一 
12100001 
ee | 








注意 ， 匿 名 机 制 不 会 在 客户 端 和 服务 器 之 间 增加 多 余 的 往返 ，START 消 息 附 加 在 初始 请 
求 中 ， 而 COMPLETE 和 FAIL 消 息 则 附加 在 初始 响应 中 。 











16.6 ”本 章 小 结 








本 章 内 容 主 要 包括 : 16. 


最 后 介绍 如 何 解析 获取 
16.2 节 介绍 了 在 C 和 C++ 中 如 何 使 








16.4 


方 如 何 进 行 协商 。 


全 
> 


Avro 作为 一 个 数据 序列 化 系统 ， 为 数据 密集 型 动态 应 
它 的 最 大 特点 就 是 模式 和 数据 在 一 起 ， 也 就 是 在 反 序列 


节 首 先 将 说 明 如 人 
化 ; 然后 介绍 对 象 容器 文件 的 具体 格式 和 RPC 中 Avro 的 使 
输 的 格式 等 ; 
同 。 
的 有 具体 例子 来 详细 介绍 。16.3 节 首先 介绍 Java 中 使 
中 学 生 模式 例子 的 Java 实 现 程序 。 


声明 Avro 模式 ， 以 及 如 侣 


对 数据 进行 序列 








的 














的 数据 ， 重 点 说 明 如 人 

















Avro， 主 要 叙述 函数 的 使 用 ， 


方法 ， 包 括 协 议 
处 理 写 入 模式 和 


声明 、 协 议 传 
读 取 模式 的 不 
关于 学 生 模 式 





加 





























此 中 下 




















Avro 所 需要 的 一 些 包 ， 后 面 给 出 了 上 节 








节 主 要 介绍 了 GenAvro 语 言 ， 说 明 如 何 
的 方法 来 声明 一 个 Avro 模式 。16.5 节 简单 介绍 了 Avro 的 简单 验证 安全 层 ， 有 具体 说 明了 通信 双 

















似 高 级 语言 











程序 提供 了 数据 存储 和 交换 的 平 





是 已 知 的 ， 这 为 Avro 带 来 了 很 多 好 处 ， 如 生成 的 数据 文件 


的 : 














使 











化 时 写 入 的 模式 和 读 出 的 模式 都 
民 小 等 。 








今后 ，Avro 可 能 会 替换 Hadoop 现 有 的 RPC, Avro 的 很 多 特性 是 为 Hadoop 及 相关 项 目 准 备 


容器 文件 中 的 
于 Hive 和 Pig; 








同步 器 可 以 使 MapReduce 快 速 地 分 离 文 件 ; 
对 于 大 规模 存储 较 小 的 数据 文件 有 利于 减少 
性 和 多 语言 支持 的 优势 还 会 帮助 Hadoop 在 跨 版 本 、 多 


语言 等 方面 提高 1 


不 需要 生成 代码 ， 有 利于 Avro 
数据 量 等 。Avro 数 据 结构 的 特 








ee 
|E HE o 
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Chukwa 简 介 


Chukwa 架 构 


Chukwa 的 可 靠 性 





Chukwa 集 群 搭建 


Chukwa 数 据 流 的 处 理 


Chukwa 与 其 他 监控 系统 比较 


本 章 小 结 


Chukwa 详 解 


17.1 Chukwa 简 介 














wu 




















Hadoop 的 MapReduce 最 初 的 主要 用 于 日 志 处 理 。 但 是 使 用 MapReduce 处 理 日 志 是 一 件 
烦琐 的 事情 ， 因 为 集群 中 机 器 的 日 志 在 不 断 地 增加 ， 会 生成 大 量 小 文件 ， 而 MapReduce 其 实 
只 有 在 处 理 少量 的 大 文件 数据 时 才 会 产生 最 好 的 效 
























































Chulkwa 作 为 Hadoop 的 子 项 目 弥 补 了 这 一 缺陷 。 同 时 它 也 是 一 个 高 可 靠 性 的 应 用 ， 能 通 
扩展 处 理 大 量 的 客户 端 请 求 ， 还 能 汇聚 多 路 客户 端的 数据 流 。Chulkwa 也 非常 适合 商业 应 
， 特 别 是 在 云 环境 上 ， 并 且 它 已 经 成 功 地 使 用 在 多 个 场景 中 。 


[es 




































































Chukwa 的 开发 主要 面向 四 类 群体 ; Hadoop 使 用 者 、 集 群 运营 人 员 、 集 群 的 管理 者 、 
Hadoop 开 发 者 。 





























Hadoop 使 用 者 : 他 们 一 般 想 了 解 作 业 运 行 的 状态 ， 以 及 还 有 多 少 资源 可 以 用 于 新 的 作 
业 ， 因 此 他 们 需要 得 到 的 是 作业 日 志和 作业 输出 。 

















们 需要 了 解 硬 件 故障 、 异 常 状态 、 资 源 的 消耗 情况 。 


[Ey 


集群 运营 人 员 : M 





集群 的 管理 者 : 他 们 需要 了 解 在 什么 样 的 成 本 下 能 够 提供 什么 样 的 服务 ， 这 就 意味 着 他 
们 需要 一 个 工具 去 分 析 集 群 系统 或 单个 用 户 过 去 的 使 用 状况 ， 并 利用 分 析出 的 信息 预测 将 来 
的 需求 。 他 们 也 要 了 解 系统 的 一 些 特征 值 ， 如 一 个 任务 的 平均 等 待 时 间 。Hadoop 开 发 者 : 
Hadoop 的 开发 人 员 通 常 需 要 了 解 系统 的 运行 情况 ，Hadoop 的 运行 瓶颈 、 失 效 模式 等 。 



























































Chukwa 作 为 Hadoop 软 件 家 族 中 的 一 员 ， 依 赖 于 其 他 Hadoop 的 子 项 目 使 用 ， 比 如 ， 以 
HDFS 作 为 存储 层 ， 以 MapReduce 作 为 计算 模型 ， 以 Pig 作 为 高 层 的 数据 处 理 语言 。Chukwa 系 
统 的 最 大 开销 被 限制 在 整个 集群 系统 可 用 资源 的 5% 以 内 。 
































Chukwa 是 一 个 分 布 式 系统 ， 它 采用 的 是 流水 式 数据 处 理 方式 和 模块 化 结构 的 收集 系统 ， 
在 每 一 个 模块 中 有 一 个 简单 规范 的 接口 ， 这 有 利于 将 来 更 新 ， 而 不 需要 打破 现行 的 编码 结 
构 。 流 水 式 模式 就 是 利用 其 分 布 在 各 个 节点 客户 端的 采集 器 收集 各 个 节点 被 监控 的 信息 ， 然 



































后 以 块 的 形式 通过 HTTP Post 汇 集 到 收集 器 ， 由 它 处 理 后 转 储 到 HDFS 中 。 之 后 这 些 数 据 由 
Archiving 处 理 〈 去 除 重复 数据 和 合并 数据 ) 提纯 ， 再 由 分 离 解析 器 利用 MapReduce 将 这 些 数 
据 转换 成 结构 化 记录 ， 并 存储 到 数据 库 中 ，HICC (Hadoop Infrastructure Care Center) 通过 
调用 数据 库 里 数据 ， 向 用 户 展示 可 视 化 后 的 系统 状态 。 










































































罗 17-1 展 示 了 Chulkwa 流 水 式 数 据 处 理 结构 











下 面 的 章节 将 从 Chukwa 架 构 出 发 ， 介 绍 系统 中 的 各 个 模块 ， 并 且 讲 解 Chukwa 如 何 实现 
系统 的 可 靠 性 。 在 对 Chukwa 整 个 系统 框架 及 原理 有 所 了 解 后 ， 大 家 可 以 根据 *Chukwa 集 群 拱 
建 " 一 节 的 介绍 ， 搭 建 一 个 自己 的 Chukwa 系 统 来 监控 Hadoop 集 群 ， 这 样 就 可 以 与 其 他 监控 系 
统 有 一 个 比较 。 希 望 大 家 可 以 结合 自己 实际 使 用 感受 ， 进 一 步 了 解 Chukwa 监 控 系 统 的 特点 。 
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图 17-1 Chukwa 流 水 式 数 据 处 理 结构 
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17.2 ”Chukwa 架 构 


Chukwa 有 三 个 主要 组 成 部 分 ， 客户 端 (Agent) ， 它 运行 在 每 一 个 被 监控 的 机 器 上 ， 并 
且 传送 源 数 据 到 收集 器 〈Collector) 中 ;收集 器 (Collector) 和 分 离 解析 器 (Demux) ， 收 
集 器 接受 从 Agent 传 来 的 数据 ， 并 且 不 断 地 将 其 写 到 HDFS 中 ， 而 分 离 解 析 器 则 进行 数据 抽取 






























































并 将 其 解析 变换 成 有 用 的 记录 ; HICC (Hadoop Infrastructure Care Center) ， 其 是 一 个 门户 
样式 的 网 页 界面 ， 用 于 数据 的 可 视 化 。 



































图 17-2 为 Chuwa 的 系统 架构 











ii: Om Chukiwa HEE, 


-oji 


图 17-2 Chuwa 系 统 架 构图 





17.2.1 客户 端 及 其 数据 模型 





在 Chukwa 中 ，Agent 的 主要 目的 是 : 使 内 部 进程 通信 协议 能 够 兼容 处 理 本 地 的 日 志文 
件 。 


随 着 分 布 式 计算 处 理 的 开始 或 结束 ， 分 布 存放 的 文件 和 套 接 字 将 会 不 断 增 加 或 减少 ， 这 
种 变化 是 需要 被 监控 的 ， 因 此 要 在 每 一 台 机 器 上 配置 Agent。 现 在 绝 大 多 数 的 监控 系统 都 要 




















求 通过 特殊 的 协议 传送 数据 ，Chukwa 也 不 例外 ， 所 以 在 Chukwa 吕 





据 ， 取 而 代 之 的 是 一 个 可 执行 环境 : 提供 可 配置 的 承载 数据 模块 














Ph，Agent 不 直接 负责 接收 数 
(Adaptor) 。 这 些 Adaptor 


在 文件 系统 或 被 监控 的 应 用 中 的 功能 是 读 取 数据 ，Adaptor 的 输出 是 一 个 逻辑 上 的 比特 流 ， 单 





a 


个 数据 流 对 应 单个 文件 ， 或 者 在 相应 套 接 字 上 接收 对 应 的 数据 包 
程序 。 数 据 流 被 存储 成 序列 块 ， 每 一 个 数据 块 由 一 些 流 级 别 的 元 


























或 一 系列 重复 调用 的 UNIX 
数据 〈Stream-level 





metadata) 加 上 一 个 数组 比特 构成 。 启 动 Adaptor 可 以 通过 UNIX 命 令 来 完成 。Adaptor 能 够 扫 


描 目 录 ， 追 踪 新 创建 的 文件 。 这 样 Adaptor 便 能 够 接收 UDP 消息 ， 





包括 系统 日 志 (Syslog) ， 


特别 是 可 以 不 断 地 追踪 日 志 ， 将 日 志 更 新 到 文件 中 。 并 且 Adaptor 是 可 以 互相 髓 套 的 ， 例 如 ， 








一 个 Adaptor 可 以 在 内 存 中 缓存 来 自 另 一 个 Adaptor 的 输出 。 在 单个 线程 内 运行 所 有 的 

















Adaptor， 可 以 让 管理 员 在 资源 受 限 的 商业 环境 中 实施 一 些 必 要 的 资源 限制 : 内 存 的 使 用 可 以 
通过 JVM 堆 的 使 用 进行 控制 ， CPU 的 使 用 可 以 通过 进程 优先 级 (Nice ) 控制 ， 带 宽 的 限制 可 


















































以 通过 Agent 进 程 协调 ， 即 设置 它 在 网 络 中 的 最 大 传输 速率 ， 只 要 超过 最 大 可 利用 的 带宽 ， 



































就 在 Agent 进 程 中 设置 固定 大 小 的 队列 ， 或 者 当 Collector 响 应 缓慢 时 ，Collector 会 自动 调节 进 














程 中 Adaptor 的 工作 。 


Agent 的 主要 工作 是 负责 开始 和 停止 Adaptors， 并 且 通 过 网 络 传输 数据 。Agent 支 持 行 定 
位 控制 协议 ， 方 便 程序 对 Agent 控 制 。 该 协议 包含 的 命令 有 : 启动 和 停止 Adaptor， 以 及 查询 





它们 的 状态 ， 也 允许 外 部 程序 在 开始 读 日 志 时 重新 配置 Chukwa。 
Adaptor 状 态 ， 并 且 存 储 Adaptor 状 态 在 检查 点 (Checkpoint) 文件 











录 足 够 的 状态 以 便 能 够 在 需要 的 时 候 完 整地 恢复 原先 的 状态 ，Checkpoint 只 是 包含 状态 ， 因 
此 Checlpoint 文 件 是 很 小 的 ， 一 般 每 一 个 Adaptor 的 Checlpoint 文 件 只 有 几 百 比特 。 








Agent 进 程 也 将 会 定期 查询 


中 ， 每 一 个 Adaptor 负 责 记 





























Agent 和 Adaptor 会 自动 设置 一 些 元 数据 ， 但 是 其 中 有 两 个 元 数据 是 需要 用 户 自己 定义 
的 : 集群 名 字 和 数据 类 型 。 集 群 名 字 被 设置 在 etc/chukwa/chukwa-agent-conf.xml 中 ， 是 在 每 
一 个 进程 当中 的 全 局 变量 。 数 据 类 型 描述 了 由 Adaptor 实 例 收集 的 数据 类 型 ， 在 启动 实例 时 ， 























它 必 须 已 经 指定 。 下 面 的 表 17-1 列 举 了 块 的 元 数据 字段 。 


表 17-1 块 的 元 数据 字段 








数据 源 〈Source》 
集群 (Cluster) 
数据 


序列 








SEW (Datatype) 









(Sequence ID) 








名 字 (name) 








Adaptors 需 要 以 序列 号 〈Sequence ID) 作为 参数 ， 以 便 在 崩溃 后 能 重新 恢复 到 之 前 的 状 
态 。 在 启动 Adaptor 时 ， 通 常会 把 序列 号 置 为 0， 但 是 有 时 候 也 会 为 了 其 他 的 目的 将 序列 号 置 
为 其 他 值 ， 例 如 ， 只 想 追 踪 文 件 的 下 半 部 分 。 














Ts 














17.2.2 ”收集 器 


现在 介绍 Chukwa 架 构 9 








hCollector 的 模型 。 如 果 每 一 个 Agent 都 直接 向 HDFS 中 写 入 数据 ， 

















那么 将 会 产生 许多 小 文件 ， 所 以 Chukwa 使 用 Collector 技 术 ， 由 单个 Collector 线 程 处 理 多 个 来 


自 于 Agent 的 数据 ， 每 一 





-个 Collector 将 它 接收 的 数据 写 到 单个 输出 文件 中 ， 这 个 文件 放 在 数据 


宿 (Data Sink) 目录 下 ， 这 就 减少 了 单个 机 器 或 单位 时 间 内 Adaptor 产 生 的 文件 数 ， 同 时 也 减 








少 了 整个 集群 产 
源 和 优化 过 的 少量 
件 ， 同 名 





命 








的 文件 数 。 从 某 种 意义 上 来 讲 ，Collector 的 存在 减轻 了 大 量 的 低速 率 数 据 
高 速率 文件 系统 间 写 入 的 匹配 问题 ，Collector 会 定期 关闭 它们 的 输出 文 
该 文件 来 标记 其 可 以 被 进一步 处 理 ， 并 且 开始 写 另 一 个 新 的 文件 。 这 个 过 














程 被 称 为 文件 轮转 。 一 个 MapReduce 作 业 定 期 压缩 收集 到 的 日 志文 件 并 且 将 它们 合并 成 一 个 


文件 。 

















Chukwa 不 同 于 其 他 监控 系统 的 地 方 就 是 它 利用 了 Collector 技 术 。 在 Collector 中 没有 实施 


任何 可 靠 性 策略 ，Chukwa 的 可 靠 性 是 依赖 于 系统 端 到 端的 协议 。 在 Chukwa 的 可 靠 路 径 中 ， 




















Collector 以 标准 的 Hadoop 序 列 文件 〈sequencefile ) 格式 写 数据 。 这 种 格式 使 MapReduce 的 多 


路 处 理 更 加 容易 。 


Chukwa Agent 在 分 配 Collector 时 也 没有 实施 动态 负载 均衡 方法 ， 而 是 由 Agent 随 机 选择 








Collector 轮 询 ， 直 到 有 一 个 可 以 工作 为 止 ， 而 后 Agent 将 独占 该 Collector， 直 到 Agent 接 受到 
报错 信息 ， 这 时 才 会 转移 到 一 个 新 的 Collector 上 ， 如 图 17-3 所 示 。 


该 方法 的 好 处 是 在 文件 系统 写 数据 之 前 ， 限 定 了 由 于 Collector 故 障 受 影响 的 Agent 的 数 
量 ， 这 也 避免 了 故障 扩散 ， 否 则 会 发 生 每 一 个 Agent 都 被 迫 对 任意 一 个 Collector 所 发 生 的 故障 
做 出 响应 的 情况 。 这 种 情况 会 造成 Collector 间 的 负载 不 均衡 。 但 在 实际 的 应 用 中 该 问题 造成 
的 影响 不 大 ，Collector 不 太 会 饱和 。 





























为 了 处 理 过 载 的 情况 ，Agent 重 新 询问 Collector 是 有 特定 方法 的 。 如 果 Agent 向 一 个 
Collector 中 写 入 数据 失败 ， 那 么 该 Collector 被 标记 为 “ 坏 的 ”(bad) ， 并 且 该 Agent 将 在 再 次 











写 入 之 前 等 待 一 个 系统 设置 的 时 间 。 因 此 ， 如 果 所 有 Collector 过 载 ， 一 个 Agent 将 会 询问 每 一 











个 Collector， 其 结果 都 将 会 是 访问 失败 ， 这 样 Agent 会 等 待 几 分 钟 后 再 次 访问 Collector。 





在 Collector 端 筛选 数据 有 许多 优点 ， 如 Collector 是 IO 约束 型 ， 不 是 CPU 约束 型 ， 这 意味 





着 CPU 资源 可 以 根据 作业 的 状态 进行 分 配 ， 进 一 步 说 ， 也 就 是 Collectors 是 无 状态 的 ， 只 需 在 
机 器 间 简 单 增加 更 多 的 Collector 即 可 。 








被 收集 信息 的 节点 
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图 17-3 Agent 的 可 靠 性 实施 





Collecter (收集 器 ; 







Collector ( 收集 器 ， 











原 传 给 中 经 五 一 一 一 》 


迁 入 路线。 ------------> 





17.2.3 ”归档 器 和 分 离 解析 器 


Chukwa 为 我 们 定制 了 一 系列 MapReduce 作 业 ， 这 些 作 业 大 体 上 可 以 分 为 两 类 : 归档 


(Archiving) 和 分 离 解析 (Demux) 。 


归档 器 从 HDFS 的 块 《Chunk) 中 抽取 数据 作为 输入 ， 然 后 将 数据 进行 排序 、 分 组 。 在 这 
一 过 程 中 归档 器 并 不 对 数据 内 容 进行 分 析 或 修改 ， 它 会 按照 不 同 的 方式 将 数据 进行 分 组 。 归 
档 器 能 去 除 重复 数据 ， 并 探查 到 数据 丢失 ， 地 调用 该 作业 可 让 数据 随时 间 不 断 压缩 到 一 
个 大 文件 中 。Chukwa 提 供 了 一 些 工具 搜索 归档 器 产生 的 文件 。 
























































分 离 解 析 器 的 功能 是 抽取 记录 并 解析 ， 使 之 变换 成 可 以 利用 的 记录 ， 以 减少 文件 数目 和 
降低 分 析 难 度 。Demux 的 实现 是 通过 在 数据 类 型 和 配置 文件 中 指定 的 数据 来 处 理 类 并 执行 相 
应 的 数据 分 析 工 作 的 。 一 般 是 把 非 结构 化 的 数据 结构 化 ， 抽 取 其 中 的 数据 属性 。 由 于 Demux 
的 本 质 是 一 个 MapReduce 作 业 ， 所 以 可 以 根据 需求 制定 Demux 作 业 来 进行 各 种 复杂 的 逻辑 分 
析 。Chukwa 提 供 的 Demux interface 可 以 通过 Java 语 言 很 方便 地 扩展 。 在 之 前 没有 Demux 的 版 
本 中 ，Chukwa 引 入 了 Archiving 的 MapReduce 作 业 ， 按 照 集群 、 日 期 和 数据 类 型 来 分 类 数据 。 
这 种 存储 模型 匹配 了 使 用 数据 的 传统 作业 模式 ， 简 化 了 写作 业 通 过 基于 数据 的 时 间 、 来 源 和 
类 型 提纯 数据 的 过 程 。 例 如 ， 存 储 用 户 日 志 用 14 天 标记 ， 而 存储 系统 日 志 则 用 年 标记 。 























































































































Chukwa 支 持 用 正则 表达 式 来 查询 文件 的 元 数据 和 数据 内 容 ， 对 于 繁重 和 复杂 的 任务 ， 
户 可 以 运行 特定 的 MapReduce 作 业 去 收集 数据 。 此 外 ，Chulkwa 完 整地 整合 了 Pig《〈 见 第 14 
章 “Pig 详 解 ") ， 以 提供 更 加 强大 的 搜索 功能 。 














17.2.4 HICC 


HICC 作 为 Chukwa 的 子 项 目 ， 其 重要 功能 是 可 视 化 系统 性 能 指标 。HICC 能 够 显示 传统 系 
统 的 度量 数据 ， 例 如 系统 资源 空闲 比率 、CPU 的 负载 、 磁 盘 写 数据 的 速度 ， 以 及 应 用 层 的 统 
计数 据 〈 如 本 地 机 器 内 map 任 务 数 、Hadoop 块 迁移 数量 等 ) 等。HICC 也 能 够 显示 使 用 每 
个 节点 日 志 信息 的 SALSA 作 业 执行 模型 状态 机 和 Mochi 可 视 化 框架 [1，2]。 利 用 Chukwa 可 视 
化 功能 可 以 清楚 看 到 集群 中 的 作业 是 否 在 被 均匀 传播 。HDFS 对 于 读 请 求 有 很 长 的 延迟 ， 因 
此 在 执行 交互 查询 工作 时 ， 反 应 会 比较 慢 ， 而 HICC 抽 取 数 据 是 使 用 批 插 入 的 方式 向 SQL 数据 
库 中 插入 通过 MapReduce 处 理 收集 到 的 数据 。MapReduce 作 业 默 认 每 5 分 钟 执行 一 次 ， 因 此 
显示 数据 至 少 比 实时 慢 5 分 钟 。HICC 也 可 以 支持 集群 性 能 的 调试 和 Hadoop 作 业 执行 的 可 视 化 
等 应 用 。 在 这 些 应 用 中 ， 延 迟 并 不 是 问题 。 目 前 ，HICC 不 需要 Chukwa 的 可 靠 性 传输 ， 但 是 
它 依赖 于 Chukwa 收 集 数 据 和 MapReduce 处 理 数据 。 















































































































































17.3 ”Chukwa 的 可 靠 性 


HE Zak, 
容错 能 


能 丢失 数据 。Chukwa 


力 是 Chukwa 设 


设计 的 一 个 


的 方案 与 其 他 分 布 式 系统 在 本 质 上 的 不 同 是 其 





三 要 指标 。 即 使 在 系统 衣 溃 、 网 络 连接 中 断 情况 下 ， 





也 不 














分 布 式 存储 日 志 的 方 





Te 


式 会 将 数据 源 的 相应 状态 写 入 数据 节点 ， 由 Agent 管 理 节点 骨 溃 的 情况 ，Agent 通 常会 为 


自己 的 状态 设置 检查 点 〈Checlpoint) 。 
中 的 数据 已 经 被 提交 到 DataSink 上 。 在 节点 崩溃 后 ， 





且 清 查 有 多 少 来 自流 
理工 具 去 重启 Agent。 











在 Agent 进 程 恢复 后 ， 
重新 发 送 没 有 提交 

















Collector 对 于 文件 系统 
则 完全 由 Agent 处 理 ， 并 
Collector, Collector 将 





的 数据 ， 
复 过 程 中 所 产生 的 重复 块 将 通过 Archiving 作 业 滤 
定位 固定 偏 移 量 来 恢复 文件 内 容 ， 并 且 Adaptor 也 能 够 监控 临时 数据 源 ， 如 网 络 的 套 
这 种 情况 下 ，Adaptor 通 过 
个 大 的 麻烦 ， 例 如 丢失 一 分 钟 的 系统 度量 信息 。 
缓存 了 来 自 不 稳定 数据 源 的 
的 状态 ， 这 个 状态 会 起 到 侦 
不 需要 从 失效 的 Collector 中 获取 信息 。 


写 数据 存储 到 HDFS 文 件 中 ， 并 且 也 定位 了 数据 在 文件 中 的 位 置 。 


该 Checkpoint 描 述 了 每 一 


每 一 个 Adaptor 将 从 最 近 的 Checkpoint 居 7 


的 CI 





或 者 重新 发 送 在 最 后 


重新 发 送 数据 就 能 很 容易 1 








Kl 











J 











位 置 很 容易 就 能 确定 ， 


因为 每 一 个 文件 仅 是 通过 一 


是 排列 数据 和 增加 其 长 度 。 


Collector 将 不 监控 已 写 入 的 文件 ， 也 不 存储 每 
对 文件 系统 访问 是 为 了 减少 文件 系统 主 节点 的 负载 ， 把 Agent 从 存储 系统 的 烦琐 中 解脱 H 








恢复 丢失 的 数据 ， 因 
为 在 默认 提供 封装 好 
数据 ， 所 以 就 可 以 建立 不 带 容错 机 制 的 Collector。Agent 将 检查 
系统 故障 并 从 故障 中 恢复 的 作用 。 


-个 Collector 写 的 ， 唯 一 


个 当前 被 监控 的 数 





据 流 ， 并 




















Chukwa 使 








此 丢失 数据 ) 

















然后 Agent 发 送 数据 到 








需要 满足 








来 。 在 出 现 故障 时 ，Agent 将 恢复 上 一 个 Checlpoint， 并 且 选 择 一 个 新 的 Collector。 


后 台 管 


态 重启 。 这 意味 着 Agent 将 
eclpoint 记 录 之 后 所 提交 的 数据 。 在 恢 
跟踪 文件 状态 的 Adaptor 通 过 文件 的 
Bee. TE 
ENE 
的 库 的 Adaptor 中 已 经 


恢复 


这 个 
的 要 求 就 


一 个 Agent 状 态 ， 轮 询 Collector 而 不 是 直接 


u 
aj 


17.4 ”Chukwa 集 群 搭建 

















17.4.1 基本 配置 要 求 




















Chukwa 可 以 工作 在 任何 POSIX 平 台 上 ， 但 是 GNU/Linux 是 唯一 的 已 经 被 广泛 测试 的 商 
平台 ， 不 过 ， 几 个 Chukwa 研 发 团队 也 在 Mac OSX 上 成 功 使 用 了 Chuwlka。 目 前 将 GNUVLinux 
作为 安装 Chukwa 的 平台 是 比较 理想 的 选择 。 下 面 是 安装 Chukwa 的 先决 条 件 : 





























必须 安装 Java 1.6; 
必须 安装 Hadoop 0.20.205.0 或 以 上 版 本 ; 


安装 HBase 0.90.4 或 以 上 版 本 ; 

















Chukwa 集 群 管理 脚本 需要 安装 SSH。SSH 功 能 用 户 Chuwa 执 行 集群 管理 脚本 ,但 是 对 于 
Chukuwa 的 运行 并 不 是 必需 的 。 如 果 不 使 用 SSH 用 户 可 以 采用 其 他 方法 来 维护 Chukwa 集 群 。 















































17.4.2 ”Chukwa 的 安装 


Chukwa 项 目的 运行 至 少 需 要 如 下 三 部 分 的 支持 : 





Hadoop 集 群 和 HBase 集 群 ，Chukwa 依 赖 其 来 存储 并 处 理 数据 。 











一 个 Collector 进 程 ， 将 收集 到 的 数据 写 入 HBase 中 。 





一 个 或 多 个 Agent 进 程 ， 它 发 送 监控 数据 到 Collector， 我 们 将 运行 的 Agentj 进 程 的 节点 视 





























另外 ， 可 以 使 用 定制 的 脚本 文件 来 监控 集群 的 健康 状态 ， 并 使 用 HICC 来 图 形 化 显示 集 
的 状态 。 





























下 面 我 们 以 三 台 机 器 为 例 介 绍 如 何 配置 Chukwa 来 监控 Hadoop 分 布 式 集群 ， 集 群 中 三 台 
机 器 的 主机 名 分 别 为 : master、slavel 和 slave2， 其 中 master 作 为 Hadoop 的 NameNode 和 
Hbase 的 HMaser。 




















1. 安 装 Chukwa 





首先 需要 在 官网 (http: //incubator.apache.org/chukwa/) 上 下 载 Chukwa， 然 后 将 其 解压 
在 合适 的 目录 下 。 当 前 Chukwa 的 最 新 版 本 为 0.5.0， 下 面 以 此 版 本 为 例 进行 介绍 。 下 载 并 解压 
Chukwa 后 ， 我 们 设置 Chkuwa 的 环境 变量 如 下 所 示 : 





rrCMmS i 
export CHUKWA_HOME=/home/hadoop/hadoop-1.0.1/chukwa- 
incubating-0.5.0 
export CHUKWA_CONF_DIR=$CHUKWA_HOME/etc/chukwa 
export PATH=$CHUKWA_HOME/bin: $CHUKWA_HOME/sbin: 
$CHUKWA CONF DIR: $PATH 


ee | 


从 上 面 的 配置 中 可 以 看 出 ， 我 们 将 Chukwa 放 在 Hadoop 目 录 下 便于 管理 。 在 Chukwa 0.5.0 
版 本 中 ， 配 置 文件 并 不 在 根 目录 下 的 conf 文 件 中 ，conf 文 件 已 经 被 删除 ， 取 而 代 之 的 是 

















H 


Chulkwa 根 目录 下 的 SCHUKWA_HOME/etc/chulkwa 目 录 。 另 外 ，Chulkwa 的 集群 管理 脚本 也 并 
非 全 部 在 bn 目录 下 ， 而 是 在 bn 和 sbin 两 个 目录 下 。 故 此 ， 我 们 将 SCHUK WA_HOMEbin 和 
$SCHUKWA_HOME/sbin 同 时 加 入 PATH 中 方便 操作 。 








2.Hadoop 和 HBase 集 群 的 配置 


Hadoop 和 HBase 的 安装 与 配置 我 们 已 经 在 前 面 章节 详细 讲 过 ， 这 里 不 再 殉 述 。 这 里 主要 
介绍 为 了 安装 Chulkwa 而 对 Hadoop 和 HBase 集 群 配置 的 进一步 修改 。 








t 


首先 按照 如 下 命令 ， 将 Chukwa 文 件 复制 到 Hadoop 中 : 


> 
cp$CHUKWA_CONF_DIR/hadoop- 
log4j.properties$HADOOP_CONF_DIR1/1log4j.properties 
cp$CHUKWA_HOME/etc/chukwa/hadoop- 
metrics2.properties$HADOOP_CONF_DIR/hadoop- 
metrics2.properties 
cp$CHUKWA_HOME/share/chukwa/chukwa-0.5.0- 
client .jar$HADOOP_HOME/1lib 
cp$CHUKWA_HOME/share/chukwa/lib/json-simple- 
1.1.jar$HADOOP_HOME//1lib 


| 


配置 完成 后 重启 Hadoop 集 群 ， 接 着 进行 HBase 的 设置 。 我 们 需要 在 HBase 中 创建 数据 存 
储 所 需要 的 表 ， 如 下 所 示 : 











= 
bin/hbase shell<CHUKWA HOME/etc/chukwa/hbase.schema 


一 











表 的 模式 Chukwa 已 经 定义 好 ， 我 们 只 需要 通过 HBase shell 将 其 导入 即 可 。 





3.Collector 的 配置 

首先 我 们 对 CHUKWA_CONF_DIR/chukwa-env.sh 进 行 配置 。 该 文件 为 Chukwa 的 环境 变 
量 ， 大 部 分 的 脚本 都 需要 从 该 文件 中 读 取 关键 的 全 局 Chukwa 配 置信 息 。 我 们 需要 对 以 下 变量 
进行 设置 : 





ee | 


export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.06 

export HBASE HOME=/home/hadoop/hadoop-1.0.1/hbase-0.92.1 
export HBASE CONF DIR=$HBASE HOME/conf 

export HADOOP HOME=/home/hadoop/hadoop-1.0.1 

export HADOOP CONF DIR=$HADOOP HOME/conf 


二 一 





注意 ”如 果 已 经 在 系统 环境 变量 中 (如 /ete/profile 文 件 ) 配置 了 上 述 参 数 ， 那 么 这 里 可 
以 省 略 。 需 要 格外 注意 的 是 ，chulkuwa-envsh 中 参数 的 优先 级 要 高 于 /etc/profile 文 件 中 相同 的 
参数 ， 一 定 要 保证 优先 级 高 的 参数 设置 正确 。 











另外 ， 当 需要 运行 多 台 机 器 作为 收集 器 的 时 候 ， 要 修改 
$CHUKWA_CONF _DIR/collectors 文 件 ， 该 文件 定义 了 哪 台 机 器 运行 收集 器 进程 。 配 置 文件 
格式 与 Hadoop 的 SHADOOP_CONF _DIR/slaves 文 件 类 似 ， 每 行 代表 一 台 机 器 。 在 默认 情况 下 
该 文件 只 包含 一 行 记录 : 配置 localhost 运 行 收集 器 进程 。 























另外 ，$CHUKWA_CONF_DIR/initial Adaptors 文 件 主要 用 于 设置 Chukwa 监 控 哪 些 日 
以 及 以 什么 方式 、 什 么 频率 来 监控 等 。 使 用 默认 配置 即 可 ， 如 下 所 示 : 


一 
add sigar.SystemMetrics SystemMetrics 60 0 
add SocketAdaptor HadoopMetrics 9095 0 
add SocketAdaptor Hadoop 9096 0 
add SocketAdaptor ChukwaMetrics 9097 0 
add SocketAdaptor JobSummary 9098 0 


二 一 


























CHUKWA_CONF_DIR/chukwa-collector-conf. xml 维 护 了 Chukwa 的 基本 配置 信息 。 我 们 
需要 通过 该 文件 指定 HDFS 的 位 置 ， 如 下 所 示 : 


Oi 
<property> 
<name>writer.hdfs.filesystem</name> 
<value>hdfs: //Master: 9000/</value> 
<description>HDFS to dump to</description> 
</property> 


| uaau: 





writer. hdfs.filesy stem 中 的 hdfs: //master: 9000/ 是 Hadoop 分 布 式 文件 系统 的 地 址 ， 











Chukwa 将 利用 它 来 存储 数据 ， 可 以 根据 实际 地 址 对 其 进行 修改 。 



































下 面 的 属性 设置 用 于 指定 sinkdata 地 址 〈 见 代码 内 容 ) ，/chukwa/logs/ 就 是 它 在 HDFS 中 
的 地 址 。 在 默认 情况 下 ，Collector 监 听 8080 端 口 〈 代 码 如 下 所 示 ) ， 不 过 这 是 可 以 修改 的 ， 
各 个 Agent 将 会 向 该 端口 发 消息 。 
5 


<property> 

<name>chukwaCollector.outputDir</name> 

<value>/chukwa/logs/</value> 

<description>Chukwa data sink directory</description> 

</property> 

<property> 

<name>chukwaCollector.http.port</name> 

<value>8080</value> 

<description>The HTTP port number the collector will listen 
on</description> 

</property> 


Eee 
4.Agent 的 配置 


























Agent 由 $CHUKWA_CONF_DIR/agents 文 件 进行 配置 ， 该 配置 文件 的 格式 与 
$CHUKWA_CONF_DIR/collectors 相 似 ， 每 行 代表 一 台 运 行 Agent 的 机 器 。 如 下 所 示 为 我 们 运 


行 Agent 的 设置 : 


另外 ，CHUKWA_CONF_DIR/chukwa-Agent-conf.xml 文 件 维 护 了 代理 的 基本 配置 信息 ， 
其 中 最 重要 的 属性 是 集群 名 ， 用 于 表示 被 监控 的 节点 ， 这 个 值 被 存储 在 每 一 个 被 收集 到 的 块 
中 ， 以 区 分 不 同 的 集群 ， 如 设置 cluster 名 称 : cluster="chukwa"。 
5 


<property> 
<name>chukwaAgent.tags</name> 
<value>cluster="chukwa"</value> 


















































<description>The cluster's name for this Agent</description 
> 

</property> 
i 


另 一 个 可 选 的 节点 是 chukwaAgent.checkpoint.dirY， 这 个 目录 是 Chukwa 运 行 Adaptor 的 定期 


检查 点 ， 它 是 不 可 共享 的 目录 ， 并 且 只 能 是 本 地 目录 ， 不 能 是 网 络 文件 系统 目录 。 





Ay 











5. 使 用 Pig 进 行 数据 分 析 









































我 们 可 以 使 用 Pig 进 行 数据 分 析 ， 因 此 需要 额外 设置 环境 变量 。 要 让 Pig 能 够 读 取 Chukwa 
收集 到 的 数据 ， 即 与 HBase 和 Hadoop 进 行 连接 ， 首 先 需要 确保 Pig 已 经 正确 安装 ， 然 后 在 Pig 
的 classpath 中 引入 Hadoop 和 HBase 的 配置 文件 目录 ， 如 下 所 示 : 

















| 
export PIG_CLASSPATH=$HADOOP CONF_DIR: $HBASE_CONF_DIR 


二 = 一 2 
接 下 来 创建 HBASE_CONF_DIR 的 JAR 文 件 : 


ee | 
jar cf$CHUKWA HOME/hbase-env.jar$HBASE CONF_DIR 


_ | 
创建 周期 性 运行 的 分 析 脚本 作业 ; 


| 
pig-Dpig.additional.jars=${HBASE HOME}/hbase-0.90.4.jar: 
${ZOOKEEPER_HOME} / g 
zookeeper-3.3.2.jar: ${PIG_HOME}/pig-0.10.0.jar: 
${CHUKWA_HOME}/hbase-env.jar 
${CHUKWA_HOME}/share/chukwa/script/pig/ClusterSummary.pig 


| | 











其 中 hbase-envjar 为 上 一 步 刚 刚 生 成 的 HBASE_CONF_DIR 的 JAR 文 件 。 











17.4.3 ”Chukwa 的 运行 


在 启动 Chukwa 之 前 需要 启动 Hadoop 和 HBase， 之 后 需要 分 别 启 动 Collector 进 程 和 Agent 
进程 。 


1.Collector 进 程 的 启动 














在 单个 节点 上 运行 Collector 进 程 可 以 使 用 bin/chukwa collector 命 令 ， 如 下 所 示 : 





二 一 
chukwa collector 
hadoop@master: ~/hadoop-1.0.1/chukwa-incubating-0.5.0$ 
OK writer.hdfs.filesystem[URI]=hdfs: //master: 9000 
No checker rules for: chukwaCollector.outputDir 
started Chukwa http collector on port 8080 


ETT 


在 启动 成 功 后 将 读 出 一 些 系统 配置 信息 ， 如 上 所 示 ，Collector 进 程 将 监视 8080 端 口 。 另 
外 ，Collector 可 以 作为 守护 进程 运行 ， 其 脚本 命令 是 sbin/start-collectors.sh， 它 将 远程 登录 
(SSH)》 到 在 conf/collectors 配 置 中 列 出 的 Collector 地 址 ， 并 且 启 动 一 个 Collector 进 程 在 后 台 运 


yes 


{T° 

















脚本 命令 sbin/stop-collectors.sh 则 用 来 关闭 Collector 进 程 。 另 外 还 可 以 通过 bin/chukwa 
collector sotp 命 令 来 关闭 Collector 进 程 。 























可 以 在 浏览 器 中 输入 http: /collectorhost: collectorport/chukwa?ping=true， 其 中 ， 





collectorhost 是 Collector 的 节点 ，collectorport 是 相应 的 端口 ， 如 果 Collector 运 行 正常 ， 一 些 统 


计数 据 将 在 页 面 中 显示 ， 例 如 : 





二 一 
Date: 1337780783926 
Now: 1337780798066 
numberHTTPConnection in time window: 0 
numberchunks in time window: 0 
lifetimechunks: 0 


二 一 


2.Agent 进 程 的 启动 











在 单个 节点 上 启动 Agent 进 程 可 以 使 用 bin/chukwa agent 命 令 。 另 外 也 可 以 通过 sbin/start- 
agents.sh 来 启动 Agent 进 程 。start-agents.sh 脚 本 将 会 读 取 CHUKWA_CONF_DIR/agents 文 件 ， 
并 且 启 动 该 配置 文件 中 所 列 出 的 所 有 机 器 的 Agent 进 程 。 




















3.HICC 进 程 的 启动 


开始 运行 HICC， 输 入 命令 SCHUKWA_HOME/bin/chukwa hicc， 如 下 所 示 : 


一 3 

hadoop@master: chukwa hicc 

hadoop@master: ~/hadoop-1.0.1/chukwa-incubating-0.5.0$May 
23, 2012 6: 51: 41 AM com. 

sun.jersey.api.core.PackagesResourceConfig init 

INFO: Scanning for root resource and provider classes in the 
packages: 

org.apache.hadoop.chukwa.rest.resource 

org.apache.hadoop.chukwa.hicc.rest 

May 23, 2012 6: 51: 42 AM 
com.sun.jersey.api.core.ScanningResourceConfig logClasses 

INFO: Root resource classes found 

class org.apache.hadoop.chukwa.hicc.rest.MetricsController 

class org.apache.hadoop.chukwa.rest.resource.ViewResource 

class org.apache.hadoop.chukwa.rest.resource.UserResource 

class org.apache.hadoop.chukwa.rest.resource.WidgetResource 

class org.apache.hadoop.chukwa.rest.resource.ClientTrace 

May 23, 2012 6: 51: 42 AM 
com.sun.jersey.api.core.ScanningResourceConfig logClasses 

INFO: Provider classes found 

class 
org.apache.hadoop.chukwa.rest.resource.WidgetContextResolver 

class 
org.apache.hadoop.chukwa.rest.resource.ViewContextResolver 

May 23, 2012 6: 51: 42 AM 
com.sun.jersey.server.impl.application.WebApplicationImpl 

_initiate 

INFO: Initiating Jersey application, version'Jersey: 1.10 
11/02/2011 04: 41 PM' 


rr | 


在 Agent 进 程 启动 成 功 后 ， 在 Web 地 址 栏 输入 http: //<Server>: 二 port>/hicc 即 可 看 到 


Chukwa 的 可 视 化 界面 。 其 中 ，Server 是 主机 名 ，<=port 二 是 jetty 端口 ， 默 认为 4080， 可 以 根 
据 需 要 对 $CHUK WAAwebapps/hicc.war 文 件 中 /WEB-INEF/ 目 录 下 的 jetty.xml 文 件 进行 修改 ， 如 


下 所 示 : 











和 
<Call name="addConnector"> 


<Arg> 

<New class="org.mortbay.jetty.nio.SelectChannelConnector"> 

<Set name="host"><SystemProperty name="jetty.host"/></Set 
> 

<Set name="port"><SystemProperty 


name="jetty.port"default="4080"/></Set> 


<Set name="maxIdleTime">30000</Set> 

<Set name="Acceptors">2</Set> 

<Set name="statsOn">false</Set> 

<Set name="confidentialPort">8443</Set> 

<Set name="lowResourcesConnections">5000</Set> 
<Set name="lowResourcesMaxIdleTime">5000</Set> 
</New> 

</Arg> 

</Call> 


和 


Chukwa HICC 界 面 如 图 17-4 所 示 。 
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图 17-4 HICCK 











在 Cluster Status 表 单 中 可 以 看 到 监控 集群 的 运行 情况 ， 如 图 17-5 所 示 。 
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图 17-5 HICC 监 控 的 集群 运行 














在 DFS Status 表 单 中 可 以 看 到 分 布 式 文件 系统 的 状态 ， 如 图 17-6 所 示 。 





件 ， 如 图 17-7 所 示 。 
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图 17-6 HICC 监 控 的 分 布 式 文件 系统 运行 


也 可 以 单 击 菜单 栏 中 








PhOptions 选 项 的 Add Widget( 窗 件 ) ， 向 网 页 

















h 添 加 需要 监控 的 窗 
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17-7 向 HICC 添 加 信息 窗 

















单 击 信息 窗 右 上 角 的 齿轮 ， 可 以 打开 并 选择 需要 显示 的 度量 指标 ， 如 图 17-8 所 示 。 
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图 17-8 在 HICC 的 窗 件 中 选择 需要 显示 的 度量 指标 
4. 启 动 Chukwa 的 过 程 
我 们 可 以 按照 如 下 顺序 启动 Chukwa。 
1) 启动 Hadoop 和 HBase; 


2) 启动 Chukwa: $CHUKWA_HOME/sbin/start-chukwa.sh; 


17.5 ”Chukwa 数 据 流 的 处 理 


原始 日 志 收 集 和 聚集 的 流程 是 基于 Chulwa 分 布 式 文件 系统 (DFS) 的 。Chukwa 文 件 在 











HDFS 中 的 存储 结构 如 











17-9 所 示 。 
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图 17-9 Chukwa 分 布 式 文件 系统 (DFS) 的 结构 


下 面 介绍 Chukwa 文 件 在 HDFSH 





hb 的 存储 流程 。 





1) Collector 将 块 写 到 logs/ 目 录 下 的 *.chukwa 文 件 中 ， 直 到 达到 块 的 大 小 (64MB) 或 超 
时 了 ，Collector 关 闭 块 ， 并 且 将 logs/*.chukwa 改 为 logs/*.done 后 缀 的 文件 。 





2) DemuxManager 每 20 秒 检查 一 次 *.done 文 件 。 





如 果 这 些 文件 存在 ， 那 么 移动 它们 到 demuxProcessing/mrInput 中 ， 之 后 Demux 将 在 
demuxProcessing/mrInput 目 录 下 执行 MapReduce 作 业 。 


demuxProcessing/mrOutput4 


移动 执行 完 MapReduce 的 文件 


如 果 Demux 在 三 次 之 内 成 功 整理 完成 MapReduce 文 件 ， 那 么 将 








的 文件 移动 到 dataSinkArchives[yyyyMMdd]/*/*.done 中 ， 和 否则 


demuxProcessing/mrOutputdataSinkArchives/InError/[y y y y MMdd]/*/*.done 。 


3) 每 隔 几 分 钟 PostProcessManager 将 执行 聚集 、 排 序 和 去 除 重 





且 将 








文件 作业 ， 并 





postProcess/demuxOutputDir_*/[clusterName]/[dataTy pe]/[dataTy pe]_[yyyyMMdd] [HH].Re 
移动 到 
repos/[clusterName]/[dataTy pe]/[y y y y MMdd]/[HH]/[mm]/[dataTy pe]_[yyyyMMdd]_ [HH] _[} 


N 


的 
Re 
N 





N 
Re 


repos/[cluste: 


.evt。 





pos/[clusterName]/ 








.evt 中 ， 同 时 将 文件 保留 到 








4) Hourly ChukwaRecordRolling 将 会 每 个 小 时 运行 一 次 MapReduce 作 业 ， 然 后 将 每 小 时 
日 志 数 据 划 分 为 以 5 分 钟 为 日 期 单位 的 日 志 ， 并 且 移 动 
dataType][yyyyMMddl[HH]JImm][dataType] [yyyy MMdd] [mm]. 
.evt 文 件 到 temp/hourly Rolling/[clusterName]/[dataType]/[yyyyMMdd] 和 


repos/[clusterNamel/[dataTypel/[yyyy MMdd]/[HH]/[dataTy pe] Hourly Done_[yy yy MMdd] [1 


pos/[clusterName}]/[dataTy pe]/[y y yy MMdd]/[HH]/rotateDone/E& 1% F - 


5) Daily ChukwaRecordRolling 在 凌晨 1: 30 运 行 MapReduce 作 业 ， 将 以 小 时 为 单位 的 日 
志 归 类 到 以 日 为 单位 的 日 志 中 ， 同 时 保留 在 








rName]/[dataTy pe]/[y y yy MMdd]/rotateDone/ 路 径 下 。 





6) ChukwaArchiveManager 大 约 每 半 个 小 时 使 








MapReduce 作 业 聚 集 和 移 除 








dataSinkArchives 中 的 数据 ， 移 动 dataSinkArchives/[yyyy MMdd]/*/*.done 到 





archivesProcessing/mrInput 和 archivesProcessing/mrOutput， 以 及 


finalArchives/[y y y y MMdd]/*/chukwaArchive-part-* 中 。 


7) 以 下 目录 下 的 文件 将 随时 间 的 增长 而 增加 ， 





因此 需要 定期 清理 。 


finalArchives/[y y y y MMdd]/* 


repos/[clusterName]/[dataTy pe ]/[y y yy MMdd]/*. evt 


17.6 ”Chukwa 与 其 他 监控 系统 


在 了 解 了 Chukwa 
统 相 比 有 什么 特点 ， 下 面 我 们 } 
特点 。 











Splunk3-6] 是 一 个 日 志 收集 和 索引 分 析 的 商业 
构 ， 不 考虑 传输 日 志 的 可 靠 性 ， 然 而 在 高 级 日 志 分 
PA a] LAT AA 


许多 大 型 互联 


存在 一 些 专门 的 日 志 





的 特点 和 如 何 使 
将 通过 介绍 


收集 系统 ， 在 这 些 系 统 当中 ，Scribe 


比较 























之 后 ， 大 家 或 许 会 问 C 
其 他 监控 系统 特点 来 








化 系统 ， 它 








在 控 系统 与 其 他 监控 系 
帮助 大 家 了 解 Chukwa 所 具有 的 


hukwal 


依赖 于 集中 的 存储 和 收入 








WR 





折 领 域 又 有 
监控 和 分 析 高 级 工具 。 





ke 
































这 样 的 需求 : 为 了 满足 需求 ， 


7) 是 一 个 开源 的 ! 





监控 系统 ， 它 














的 元 数据 模型 比 Chukwa 简 单 ， 消 息 是 key-value 对 ， 其 优点 是 灵活 ， 但 是 缺点 是 要 求 用 户 设计 
自己 的 元 数据 标准 ， 这 使 得 用 户 之 间 很 难 分 享 源 代 码 。Scribe 的 部 署 由 多 个 服务 器 组 成 ， 它 
们 被 安排 在 有 向 非 循环 图 中 ， 其 中 的 每 一 个 节点 对 是 否 提交 和 存储 接收 信息 都 是 有 有 具体 规定 





的 。 相 比 Chukwa 而 言 ，Scribe 没 有 被 设计 成 























容 传统 的 应 





> 





RPC 服 务 发 送 消息 给 Scribe。 这 样 














的 优点 在 于 避免 在 通常 情况 





无 误 地 传输 ， 缺 点 是 在 对 不 适 
Chukwa 处 理 这 样 的 问题 就 








F 滑 得 多 。Scribe 在 传送 上 的 可 靠 


FScribe 的 数据 源 进 行 收 集 四 
性 


Rt aE 


被 监控 的 系统 必须 通过 7 
下 的 本 地 写 开销 ， 使 消息 可 以 
要 额外 的 处 理 。 相 对 而 言 ， 

电 弱 于 Chukwa。 一 旦 数据 被 提 


Thrift 


i 


交 到 Scribe 服 务 器 ， 服 务 器 将 负责 处 理 该 数据 ， 而 这 个 服务 器 为 了 后 续 传 送 会 长 时 间 地 缓存 


数据 。 这 就 意味 着 Scribe 服 务 器 故障 可 
证 ， 这 是 因为 原始 发 送 者 没有 保留 
[ 作 的 Scribe Server， 那 么 数据 将 会 丢失 。 





送 失 败 之 前 没有 找到 一 个 





E 常 J 





另 一 个 相关 的 系统 是 Artemis 
群 。Artemis 是 为 针对 上 下 文 而 专 


分 析 和 已 经 分 析 的 结 


; 缺点 是 如 果 一 个 ? 





能 造成 数据 丢失 ， 同 四 


没有 一 个 端 到 端的 传输 保 








一 个 副本 。 客 户 端 在 向 多 
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区 务 器 发 送 消息 时 ， 如 果 在 发 





， 它 是 由 Microsoft 研 究 设 计 
门 设计 的 : 它 只 在 本 地 处 理 








的 ， 
日 志 ， 使 
处 理 引擎 。 该 架构 的 优点 是 避免 了 网 络 中 多 个 副本 的 元 余 ， 也 使 系统 资源 可 以 习 

















来 调试 大 规模 Dryad 集 
DryadLINQ[9] 作为 
下 复 利 用 正在 
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节点 坏 掉 或 暂时 不 能 

















Artemis 没 有 被 设计 成 使 








长 期 可 靠 的 存 


嵌 ， 因 为 那 需要 除 本 地 以 外 的 副 








， 查 询 会 给 出 错误 的 结果 。 


本 ; 另外 ， 在 本 地 分 





























析 对 于 监控 商业 服务 来 说 也 是 不 理想 的 ， 因 为 其 分 析 数 据 功 能 可 能 会 干扰 正在 被 监控 的 系 
统 。 






































还 有 一 些 其 他 监控 系统 工具 ， 像 Astrolabe、Pier 和 Ganglia[10-12] 被 设计 成 能 帮助 用 户 查 
询 分 布 式 系统 监控 信息 的 系统 。 在 所 有 的 情况 下 ， 每 个 被 监控 机 器 上 的 客户 端 都 存储 了 一 定 
量 的 数据 用 于 答复 查询 。 因 为 客户 端 不 收集 和 存储 大 数据 集 的 结构 化 数据 ， 所 以 它们 不 适合 
一 般 目 的 的 编程 模型 。 它 们 通过 在 系统 中 应 用 一 个 特殊 的 数据 聚集 策略 来 实现 可 扩展 性 ， 但 
是 这 会 耗费 较 大 的 系统 性 能 。 相 比 而 言 ， 因 为 Chukwa 从 收集 过 程 中 剥离 了 分 析 过 程 ， 所 以 每 


一 个 部 分 部 署 都 可 以 独立 地 扩展 。 
















































































Ganglia 擅 长 实时 故障 侦 测 ， 相 对 而 言 ，Chulkwa 会 有 分 钟 级 的 延迟 ， 但 考虑 到 系统 能 
分 钟 级 处 理 海量 数据 ， 并 且 能 够 敏锐 侦 测 到 运行 变化 ， 同 时 会 对 故障 诊断 有 所 帮助 ， 而 工程 
师 一 般 不 能 对 秒 级 别 的 事件 有 所 反应 ， 所 以 分 钟 级 的 延 时 是 被 允许 的 。 

















17.7 ”本章 小 结 














Chukwa 作 为 Hadoop 的 子 项 目 ， 既 能 帮助 Hadoop 处 理 其 日 志 ， 也 能 利用 MapReduce 对 日 
志 进 行 分 析 处 理 。 在 Chukwa 的 帮助 下 ，Hadoop 用 户 能 够 清晰 了 解 系统 运行 的 状态 ， 分 析 作 
业 运 行 的 状态 及 HDFS 的 文件 存储 状态 ， 从 而 对 整个 分 布 式 系统 状态 有 形象 直观 的 了 解 。 


























和 Hadoop 一 样 ，Chukwa 也 是 一 个 分 布 式 系统 ， 它 虽然 构建 于 Hadoop 之 上 ， 但 是 本 身 也 
有 自己 的 特点 。 它 利用 分 布 在 各 个 节点 上 Agent 进 程 中 的 Adaptor 收 集 各 个 节点 被 监控 的 信 
息 ， 然 后 以 块 的 形式 通过 HTTP Post 江 集 到 Collector， 再 由 它 处 理 后 转 储 到 HDFS 中 。 之 后 这 
些 数据 由 Archiving 处 理 〈 去 除 重复 数据 和 合并 数据 ) 提纯， 再 由 Demux 利 用 MapReduce 将 这 
些 数据 转换 成 结构 化 记录 ， 并 存储 到 数据 库 中 ，HICC 通 过 调用 数据 库 中 的 数据 向 用 户 展示 可 
视 化 后 的 系统 状态 。 














































































































要 想 利用 好 Chukwa 这 个 工具 ， 就 必须 对 Hadoop 的 各 个 配置 项 都 有 清晰 的 认识 。 同 时 
Chukwa 这 个 项 目 自 身 也 在 不 断 完善 中 ， 感 兴趣 的 读者 可 以 持续 跟 进 。 以 下 是 其 官网 地 址 : 
http: //incubator.apache.org/chukwa/。 
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第 18 章 ”Hadoop 的 常用 插件 与 
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Hadoop Streaming 的 介绍 和 人 























Hadoop Libhdfs 的 介绍 和 使 


本 章 小 结 
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18A] 


Hadoop Studio 是 一 个 如 


Hadoop Studio 的 介绍 和 使 


Hadoop Studio 的 介绍 























Hadoop 的 使 


复杂 度 ， 让 








和 大 众 版 两 个 版 本 ， 
户 可 以 通过 Hadoop Studio 强 大 的 GUI 部 署 Hadoop 任 务 ， 关 


要 有 以 下 优点 : 








大 众 版 仅 需要 注册 就 可 以 获得 ， 本 章 























简化 并 加 快 了 Hadoop 任 务 模 型 建立 、 开 发 和 调试 的 进程 。 


能 够 实时 地 定义 、 管 理 、 可 视 化 和 监视 人 


工作 情况 ， 能 够 让 


具有 很 强 的 移 





Hadoop Studio 


序 员 ， 还 是 熟练 的 并 行程 序 开发 者 ， 














户 通过 观察 输入 输 





值 性 ， 能 够 被 部 署 在 
































的 优点 决定 了 无 论 





快 Hadoop 开 发 进程 的 可 视 化 开发 环境 。Hadoop Studio 通 过 降低 
户 在 更 少 的 步骤 内 完成 更 多 的 事情 以 提高 效率 。Studio 有 专业 版 
介绍 的 Studio 都 指 大 众 版 Studio。 
F 监 控 Hadoop 任 务 的 实时 信息 。 它 主 

















E 业 、 集 群 和 文件 系统 等 ， 能 够 查看 任务 的 实时 
出 和 中 间 结 果 的 工作 流程 图 来 管理 任务 的 执行 时 间 。 


任何 操作 系统 和 任何 版 本 的 私有 或 公有 Hadoop 云 系统 
上 ， 且 服务 能 通过 代理 服务 器 和 防火 墙 而 不 受 影响 。 


有 极 少 MapReduce 或 Hadoop 开 发 经 验 的 Java 程 
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都 能 简化 
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fe, ters 


其 工作 效率 。 





而 这 主要 是 











Hitit 


1) 设 


ee. VAATE 


计 : 由 于 Studio 能 





视 化 四 





个 方面 








不 需要 真正 的 集群 ， 这 所 











Jy 








以 帮 











2) 部 署 : 无 论 




















户 使 




















户 任 务 
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K, USING, H 


L 步 便 可 以 启动 计算 


的 部 署 而 且 不 受 服务 器 和 防火 
任务 : 首先 在 Hadoop Jobs 中 添加 生成 好 的 JAR 包 ， 
选择 执行 任务 的 目标 Cluster 节 点 和 目标 Filesystems 








仿真 Hadoop 系 统 ， 所 以 
户 迅 


来 实现 的 。 




















速 上 手 。 








ate 
Hi 


的 影响 








。 在 Hadoop Studio 环 境 


上 群 还 是 公共 网 络 上 的 集群 ，Studio 都 外 


户 初期 建立 MapReduce 任 务 模型 时 就 


bf 


e MH] 


化 














下 ， 


户 只 需要 简单 








即 可 完成 启动 。 


然后 选择 要 执行 的 主 





3) 调试 : MapReduce 编 程 中 最 具 挑 战 性 的 领域 之 一 就 是 在 集群 上 调试 MapReduce 任 
务 。Studio 提 供 了 可 视 化 工具 和 任务 实时 监控 ， 并 支持 图 表 化 Hadoop 任 务 执行 状态 〈 包 括 作 
业 类 型 、 完 成 情况 、 执 行 状态 、 起 止 时 间 、 报 错 信息 、 输 出 结果 等 ) 和 查看 任务 计数 器 ， 这 
都 使 得 调试 MapReduce 变 得 容易 起 来 。 
























































4) 可 视 化 ， 强 大 的 图 形 用 户 界面 能 够 使 用 户 不 用 关注 分 布 式 平台 的 细节 就 可 以 编写 程 
序 、 调 试 程序 、 管 理 集群 和 文件 系统 、 配 置 任务 信息 和 日 志文 件 等 ， 这 都 为 用 户 节省 了 时 


















































间 。 同 时 图 形 界面 还 能 让 用 户 通 过 实时 查看 输入 输出 和 中 间 结 果 的 流程 图 等 其 他 任务 信息 来 
管理 任务 的 执行 情况 。 














Hadoop Studio 是 一 个 强大 的 Hadoop 插 件 ， 它 具有 众多 优点 ， 能 够 简化 用 户 Hadoop 开 发 
程 ， 提 高 用 户 的 效率 。 























过 











18.1.2 Hadoop Studio 的 安装 配置 




















Hadoop Studio 专 注 于 简化 数据 处 理 。 为 满足 其 广泛 的 可 用 性 ，Hadoop Studio 开 发 和 部 署 
环境 的 要 求 都 设计 得 很 简单 。 表 18-1 是 它 的 开发 和 部 署 环 境 要 求 : 





表 18-1 Hadoop Studio 开发 环境 
R 
Hadoop 版 本 要 求 | Apache Hadoop (0.20). Amazon EMR 或 $3. Cloudera、 IBM InfoSphere BigjJnsights 或 Yahoo! 
操作 
开发 环境 Eclipse (版 本 3.5 或 更 高 》 














统 | Mac. Microsoft Windows. Linux 








从 这 个 表 中 可 以 看 出 Studio 的 开发 可 以 基于 Eclipse。 下 面 ， 我 们 以 基于 Eclipse (安装 在 


























Linux 系 统 上 ) 的 大 众 版 Hadoop Studio 为 例 介 绍 其 安装 和 使 用 方法 。 


基于 Eclipse 安装 Hadoop Studio 需 要 一 个 集成 开发 环境 (IDE) 、Java 平 台 和 Java SE， 并 
且 首 先 需要 有 以 下 软件 的 支持 ， 如 表 18-2 所 示 。 








表 18-2 Hadoop Studio 的 软件 支持 


Eclipse IDE i 4s 


Java 版 本 
开发 环境 Java 环境 或 Java SE 











安装 JDK 和 Eclipse 的 过 程 不 再 闭 述 ， 
Eclipse 的 大 众 版 Hadoop Studio。 








介绍 安装 好 JDK 和 Eclipse 之 后 如 何 安装 基于 


Hadoop Studio 是 Eclipse 的 一 个 插件 ， 在 启动 Eclipse 之 后 依次 点 击 Help 菜 单 下 的 Install 
New Software 一 弹出 的 Install 窗 口 一 Add， 然 后 在 弹出 的 Add Repository 窗口 中 填 入 以 下 信 
息 : 


ah 





Name: Karmasphere Studio Plugin 


Location: http: //updates. karmasphere.com/dist/<<serial_key > >/Eclipse/site.xm1 





填 完 之 后 点 击 OK。 接 下 来 在 Install 窗 口 下 会 出 现 可 能 需要 安装 的 插件 ， 选 择 
Karmasphere Studio Community Edition 或 者 Karmasphere Studio Professional Edition， 之 后 一 


直 点 击 Next 并 选择 I accept the terms of the license agreements。 接 下 来 Hadoop Studio 插 件 将 会 











自动 下 载 并 安装 。 中 途 如 果 出 现 Security Warning 窗 口 ， 选 择 OK 安装 就 会 继续 。 安 装 结束 后 
重启 Eclipse 即 能 正常 使 用 。 现 在 最 新 版 本 的 Studio 是 1.11 。 






































18.1.3 Hadoop Studio 的 使 用 举例 














下 面 以 本 地 MapReduce 任 务 的 开发 、 调 试 和 部 署 及 远程 部 署 为 例 ， 介 绍 Hadoop Studio 的 














使 用 情况 。 








1. 本 地 开发 、 调 试 和 部 署 


(1) 本 地 的 开发 和 调试 








Hadoop Studio 的 任务 开发 


降低 MapReduce 编 程 的 入 门 门槛 ， 因 为 有 了 它 ， 
开发 和 调试 自己 的 任务 以 避免 延误 整个 了 
明 如 何在 本 地 部 署 它们 ， 让 大 家 熟悉 Hadoop Studio 开 发 工具 的 使 用 方法 ， 这 两 个 工作 流程 中 




















工具 允许 














户 开 发 并 调试 MapReduce 任 务 。Hadoop Studio 可 以 




















户 可 以 在 不 需要 集群 支持 的 情况 下 ， 不 断 
[ 程 的 开发 周期 。 接 下 来 我 们 介绍 两 个 工作 流程 并 说 









































一 个 使 用 MapReduce 预 定义 类 (WordCount Workflow) ， 另 一 个 使 用 MapReduce 自 定义 类 


(Pi Project Workflow) 。 


WordCount 工 作 流 





1) 创建 一 个 名 为 WordCountProject 的 Java]] 


2) 创建 一 个 MapReduce 了 























为 了 使 用 Hadoop Studio， 我 们 需要 引 





[ 程 。 




















Karmasphe 


1) 中 创建 的 Java 工 程 ， 选 择 Build Path> Add Libraries, 











[ 程 〈 详 细 过 程 略 ) ; 


re 和 Hadoop libraries， 右 键 点 击 步 又 
接着 选择 弹出 窗口 中 的 Hadoop 








Libraries from Karmasphere 并 点 击 Next， 在 弹出 的 窗口 中 选择 Karmasphere Client for 


Hadoop 并 点 击 finish。 然 后 右键 点 击 WordCountProject] 





[ 程 ， 选 择 New Other， 接 着 选择 


Hadoop Jobs 下 的 Hadoop Map-Reduce Job (Karmasphere API) 并 点 击 finish。 再 然后 展开 














Eclipse 工作 区 面板 中 的 WordCountProject， 双 击 src 下 的 





面 ( 如 图 18-1 所 示 ) : 











HadoopJob.wordfolw。 出 现下 面 的 界 


cS _ == 


Boottrip Input | Mapper | Putticner | Comparator | Cambnee 
Inqut Resources 
Input Fle Chhaomasphere rep rout bt 





Integration Date 
Pr input 
p input a 


图 18-1 Hadoop Studio 工 程 配 置 图 








点 击 窗口 界面 中 第 一 行 的 Bootstrap 按 钮 ， 再 点 击 相应 页 面 中 的 Browse 按 钮 ， 打 开 文 件 系 
统 上 的 一 个 文件 ， 然 后 保存 工程 。 这 样 Studio 就 会 为 你 的 工程 生成 所 有 的 代码 并 且 进 行 编 
译 。 在 图 18-1 的 窗口 中 有 很 多 选项 卡 ， 点 击 各 个 选项 卡 用 户 可 以 查看 自己 工程 所 处 的 状态 和 
输入 数据 在 各 个 时 间 点 对 工程 的 影响 。 用 户 也 可 以 点 击 选项 卡 设置 对 应 的 工程 配置 参数 。 




































































现在 先 点 击 Input 选 项 卡 ， 在 Class name 一 栏 中 输入 
org.apache.Hadoop.mapred.TextInputFormat， 将 输入 文件 的 格式 设 定 为 TextInputFormat。 再 
点 击 Mapper 选 项 卡 ， 在 Class name 一 栏 输入 
org.apache.Hadoop.mapred.lib.TOKenCountMapper， 为 Mapper 的 计数 令 牌 设 定 类 的 格式 。 接 
着 点 击 Partitioner 选 项 卡 ， 在 Class name 一 栏 输入 


org.apache.Hadoop.mapred.lib.HashPartitioner， 以 设 定 Partitioner 的 类 。 随 后 点 击 Comparator 











选项 卡 ， 在 Class name 一 栏 输 入 org.apache.Hadoop.io.Text.Comparator 选 定 Text Comparator。 


然后 点 击 Combiner， 在 Classname 一 栏 输入 org.apache.Hadoop.mapred.lib.Identity Reducer， 





选 定 Identity Reduce。 再 然后 点 击 Reducer， 在 Class name 一 栏 输入 
org.apache.Hadoop.mapred.lib.LongSum Reducer， 选 定 Long Sum Reducer。 最 后 点 击 Output 选 
项 卡 ， 在 Class name 中 输入 org.apache.Hadoop.mapred.TextOutputFormat， 以 设 定 output 的 数 
据 类 型 。 





PiProject 工 作 流 


1) 创建 新 的 Java 工 程 ， 按 照 上 了 











流 。 如 图 18-2 所 示 。 


2) 右键 点 吉 


图 











而 WordCountProject 中 添加 工作 流 的 步 又 添加 一 个 工作 








五 [default package) 

$ Haiccplob workfiew 
BA IFE System Lony Jo5E-16 
A Hedocp Chant (Karmanphere) 
A Hocloop MapReduce 0.18.3 
y Word Count? roject 


18-2 Hadoop Studio 新 创建 的 工程 图 


FPiProject， 选 择 New 一 Other。 选 择 New 窗 口中 Hadoop Types 下 的 Hadoop 











Mapper， 然 后 点 击 finish。Package Explorer 中 的 PiProject 工 程 下 会 出 现 HadoopMapperjava， 
按照 同样 的 步骤 添加 HadoopReducerjava。 双 击 HadoopMapperjava 打 开 界 面 ， 输 入 下 面 的 代 


码 : 








上 == 
package cn.edu.ruc.cloudcomputing.book.chapter18; 


import 
import 
import 
import 
import 
import 
import 
import 
/** 

* 


java.util. 


Random; 


java.io.IOException; 


org.apache 
org.apache 
org.apache 
org.apache 
org.apache 
org.apache 


.Hadoop . 
.Hadoop. 
.Hadoop. 
.Hadoop. 
.Hadoop. 
.Hadoop. 


mapred.MapReduceBase; 
mapred.Mapper; 
mapred.OutputCollector; 
mapred.Reporter; 
io.Text; 
io.LongWritable; 


public class HadoopMapper extends MapReduceBase implements 
Mapper<Text, Text, Text, 

LongWritable>{ 

public void map (Text key, Text value, OutputCollector<Text, 
LongWritable>output, 

Reporter reporter) 

throws IOException{ 

Random generator=new Random () ; 

int i; 

final int iter=100000; 

for (i=0; i<iter; i++) 

{ 

double x=generator.nextDouble () ; 

double y=generator.nextDouble () ; 

double 2z; 

Z=x*xty*y; 

if (z<=1) 

output.collect (new Text ("VALUE") , new LongWritable (1) ); 

else 

output.collect (new Text ("VALUE") , new LongWritable (0) ); 

} 


} 

} 

} 
一 


再 双击 HadoopReducerjava 打 开 界 面 ， 输 入 下 面 代码 : 


[| 

package cn.edu.ruc.cloudcomputing.book.chapter18; 

import java.io.IOException; 

import java.util.Iterator; 

import org.apache.Hadoop.mapred.MapReduceBase; 

import org.apache.Hadoop.mapred.OutputCollector; 

import org.apache.Hadoop.mapred.Reducer; 

import org.apache.Hadoop.mapred.Reporter; 

import org.apache.Hadoop.io.Text; 

import org.apache.Hadoop.io.LongWritable; 

import org.apache.Hadoop.io.DoubleWritable; 

public class HadoopReducer extends MapReduceBase implements 
Reducer<Text, LongWrit- 

able, Text, DoubleWritable>{ 

publicvoidreduce(Textkey, lterato 
r<LongWritabtle>value 

OutputCollector<Text, DoubleWritable>output, Reporter 
reporter) 


throws 
double 
double 
double 


IOException{ 
pi=0; 
inside=0; 
outside=0; 


while (value.hasNext () ) 


{ 


if (value.next © .get © == (long) 1) 
insidett; 
else 

outsidet+; 


} 


pi= (4*inside) / (insidetoutside) ; 
output.collect (new Text ("pi") , new DoubleWritable (pi) ) ; 


右键 点 击 Eclipse 菜 单 栏 叶 
没有 选中 ， 就 点 击 Project 下 由 
生成 的 Hadoop Job 默 认 是 选中 的 。 之 后 点 击 HadoopJob.wordflow 下 的 Bootstrap， 接 着 点 击 














bh 的 Project 选 项 卡 ， 查 看 Build Automatically 项 是 否 选中 ， 如 果 





内 Build Project。 需 要 注意 的 是 ，Build Automatically 对 于 Studio 


Browse 选 择 输入 文件 ， 并 点 击 input 选 项 卡 设 定 输入 格式 为 





org.apache.Hadoop.mapred.Key ValueTextInputFormat. 





然 








4 击 mapper 选 项 卡 输入 


HadoopMapper 选 定 HadoopMapper。 点 击 Partitioner 选 项 卡 输入 


org.apache.Hadoop.mapred.li 





.HashPartitioner 选 定 Hash Partitioner。 点 击 Comparator 选 项 卡 ， 





输入 org.apache.Hadoop.io.TextComparator 选 定 Text Comparator。 点 击 Reducer 选 项 卡 ， 输 入 


HadoopReducer 选 定 Hadoop Reducer. $jn Nin 





FOutput 选 项 卡 输入 


org.apache.Hadoop.mapred.TextOutputFormat 选 定 输出 数据 格式 。 


(2) 本 地 任务 部 署 


Hadoop Studio 使 
流 任务 和 JAR 包 任务 











果 读 者 使 





的 是 Win 








部 署 了 


[ 作 流 


2 


Hi 














户 能 够 将 自己 的 本 地 任务 部 署 成 线程 模式 。 这 里 我 们 介绍 将 本 地 工作 














ows 系 统 ， 则 需要 先 安装 Cy gwin 模 


署 成 线程 模式 的 详细 步骤 ， 包 括 工作 流 和 JAR 文 件 。 需 要 注意 的 是 如 





以 Linux 环 境 。 























打开 上 面 已 经 创建 的 PiProject 工 程 中 的 工作 流 ， 点 击 Eclipse 工具 栏 中 最 后 一 个 Deploy 按 
钮 ， 设 定 Deployment 窗 口中 Target Cluster 和 Data Filesystem 的 参数 值 ， 分 别 为 In-Process 
Thread (0.20.2) 和 Local Filesystem C: \， 然 后 点 击 OK。 当 工作 流 在 本 地 部 署 完成 时 ， 在 
Output 窗 口 下 就 可 以 看 到 实时 执行 状态 了 。 




















部 署 JAR 包 








首先 还 是 打开 上 面 已 经 创建 的 PiProject 工 程 中 的 工作 流 ， 然 后 选择 
Eclipse 一 window 一 Open Perspective 一 Other 一 Hadoop， 点 击 OK 之 后 会 打开 Hadoop 视 图 。 在 














Jobs 上 右键 点 击 选择 New Job， 输 入 Job Name， 选 择 Job Type 为 Hadoop Job from pre-existing 
JAR fle， 点 击 Next， 然 后 选择 要 部 署 的 JAR 文 件 并 点 击 Next。 接 着 选择 Default Cluster 为 In- 
Process Thread (0.19.3) ， 设 定 Default Arguments 为 pi 10 10000。 最 后 右键 点 击 新 建 的 Job， 
选择 Execute Job。 到 此 JAR 文 件 的 部 署 已 经 完成 。 同 样 在 JAR 文 件 部 署 完 成 之 后 ， 就 可 以 在 
Output 窗 口中 查看 Job 的 实时 执行 状态 了 。 

















2. 集 群 部 署 


(1) 新 建 Hadoop HDFS 

















为 了 使 用 HDFS， 我 们 首先 需要 在 Hadoop 视 图 下 创建 一 个 文件 系统 。Hadoop Studio 人 允许 
户 通 过 Socket 或 SSH 连 接 、 浏 览 、 读 写 一 个 HDFS。 它 有 一 个 内 置 的 用 来 展示 本 地 文件 系统 
的 选项 。 






































首先 ， 让 我 们 打开 Hadoop 视 图 创建 一 个 文件 系统 选项 。 右 键 点 击 Filesy stem 选择 New 
Filesy stem ， 在 打开 的 窗口 中 输入 文件 系统 的 名 字 并 设 定 Filesy stem Type 为 Hadoop HDFS 
Filesy stem 。 接 下 来 配置 运行 HDFS 的 NameNode。 如 果 计 划 通 过 SSH 连 接 ， 那 么 需要 将 
NameNode Host 配 置 成 localhost， 然 后 再 配置 NameNode Port、Hadoop Version、 
Username、Group 并 点 击 finish， 接 下 来 将 连接 类 型 配置 成 DIRECT， 之 后 点 击 finish 完 成 文件 
系统 选项 的 创建 。 右 键 点 击 创建 的 文件 系统 选项 ， 选 择 Open Filesystem 可 以 浏览 文件 系统 项 

















目 ，Studio 将 会 创建 同文 件 系 统 的 连接 ， 并 打开 Filesystem Browser 窗 口 以 便于 


文件 系统 。 


(2) 监控 HDFS 


Hadoop Studio® LA IA 
右键 选择 Monitor status 就 可 


(3) 创建 Ha 


要 在 分 布 式 Hadoop 集 


Hadoop Studio 允 许 


Hadoop Studio 有 一 个 内 置 模拟 集 旭 


上 任务 的 运行 时 显 


JobTracler 集 群 。 打 开 Hadoo 
口 输入 Cluster Name， 选 择 Cluster Typ 
Hadoop Version 和 Default Filesystem 。 

JobTracker PortfllUsername, Zaid 
信 、Soclet 和 可 选 SSH。 J 


(4) 监控 正在 运行 


Hadoop Stu 


信息 。 这 个 功能 


io 


使 





MapReduce Job 运 行 


可 


oop 集 群 























户 在 集 





以 查看 。 当 然 前 提 是 


# 

















户 查 看 管理 





























群 上 部 署 、 调 试 、 监 控 ， 需 要 先 在 Hadoop 视 图 下 创建 集 
上 运行 自己 的 任务 并 通过 图 表 监 控 集群 的 状态 。 





2 化 地 描述 HDFS 文 件 系 统 的 状态 ， 在 需要 查看 的 文件 系统 上 点 击 
户 已 经 创建 了 文件 系统 。 

















的 选项 。 用户 可 以 




















得 尤其 有 








我 们 这 里 设置 为 直接 通信 。 


以 解释 并 显示 


。 在 这 里 将 创建 一 个 Hadoop 
视图 右键 点 





H 








e 为 Hadoop Cluster ( 





(MES 



































Pa 














MH, Ha 








息 。 如 果 需 要 监控 外 











户 Hadoop 集 群 在 运行 任务 时 保存 的 日 志文 伯 
以 监控 自己 任务 的 执行 情况 ， 并 且 
oop Studio 会 切换 到 Job Monitor 视 图 ， 在 这 个 视图 上 
到 任务 的 执行 信息 。Job Monitor 视 图 列 出 了 集群 上 所 有 任务 的 信息 ， 选 择 一 个 任务 并 点 
Task Monitor 按 钮 ， 就 可 以 看 到 这 个 任务 的 Summary、Timeline、Logs、Tasks 和 Config 等 


群 的 状态 ， 可 以 右键 点 


它 来 运行 任务 ， 在 测试 小 数据 量 





集群 ， 首 先 需要 添加 一 个 新 的 
FHadoop Clusters 并 选择 New Cluster， 在 出 现 的 窗 





obTraclker) ， 再 设 定 正确 的 


点 击 Next 之 后 再 配置 集群 ， 输 入 JobTracker Host, 
FNext。 接 下 来 配置 Hadoop 集 群 的 通信 机 制 ， 有 直接 通 
然后 点 击 finish 完 成 Hadoop 集 群 的 创建 。 











F 和 错误 诊断 
分 析 任 务 的 执行 结果 。 当 
户 可 以 看 




















击 








u 


和 对 应 集群 并 选择 Monitor Status, Monitor Status 窗 


口 就 会 列 出 Map Attempts, Reduce Attempts, Task Trackers 和 User Accounting 的 统计 表格 。 


(5) 部 署 运 行 任务 














Hadoop Studio fù 


户 部 署 三 种 类 型 的 任务 : 





介绍 部 署 这 三 种 类 型 任务 的 步骤。 


须 是 通过 Hadoop Client 创 
Hadoop 的 版 本 与 集群 的 








工作 流 





创建 一 个 了 





[ 作 流 〈 过 程 略 ) 然后 点 





注意 的 是 ， 输 入 参数 的 时 


以 查看 运行 情况 。 


流 任务 


打开 Hadoop 视 图 





an 





工作 流 、 
I 果 集群 通过 SSH 连 接 ， 那 么 部 署 的 Job 必 





建 的 《具体 过 程 参考 本 


章 


Hadoop 版 本 一 致 。 





目 关 内 容 ) 。 


JAR% 


另 


件 和 流 任务 。 这 里 我 们 将 


-个 需要 注意 的 是 保证 





fideploy， 在 弹出 的 Deployment 窗 口中 输入 Job 
Name， 选 择 Target Cluster 和 Data Filesystem ， 键 入 输入 和 输出 的 参数 ， 然 后 点 击 OK 。 








候 需 要 每 个 参数 都 要 占 一 行 或 者 同行 参数 之 
输出 目录 应 为 空 或 不 存在 。 接 下 来 点 击 OK， 之 后 








间 需 要 空格 隔 开 ， 并 且 





工作 流 就 会 部 署 运 行 了 ， 在 Output 窗 口 里 可 


右键 点 击 Jobs 选 择 New Job。 输 入 Job Name， 选 择 Job Type 为 Hadoop 


Streaming Job， 点 击 Next。 再 输入 Input Location 和 Output Location， 点 击 Next。 接 着 选择 





Mapper 和 Reducer 的 types 为 Raw Command， 在 Mapper 和 Reducer 中 输入 /bin/cat， 然 后 点 击 
finish， 如 果 是 自己 编写 的 代码 那么 就 需要 在 设置 Mapper 和 Reducer 时 选择 Upload。 接 下 来 右 


键 点 击 新 建 的 Job 选 择 Execute Jol 
行 ， 同 样 可 以 在 Output 中 查看 ; 


运行 


JAR 文 件 





RE. 











在 集群 


上 部 署 Jar 文 件 需要 




















击 Next。 


击 Jobs， 选 择 New Job， 输 入 Job 
file， 点 击 Next。 在 弹出 的 窗口 中 浏览 文件 系统 选择 Primary Jar file， 并 输入 Main Class, 
接 下 来 需要 选择 默认 集群 和 默认 参数 ， 配 置 完成 之 后 点 训 





到 Hadoop Services。 


有 具体 步骤 是 


， 在 确认 各 项 参数 无 误 之 后 点 击 OK， 这 样 ， 任 务 就 会 部 署 


本 开 Hadoop 视 图 ， 右 键 点 


Name， 选 择 Job Type 为 Hadoop Job from pre-existing JAR 


点 








参数 输入 格式 的 要 


ifinish 。 





求 和 Job Worflow 中 相同 ， 然 后 右键 点 击 新 创建 的 Job， 选 择 Execute Job， 确 认 参 数 无 误 之 后 
点 击 OK， 这 样 ， 任 务 就 会 部 署 运行 ， 同 样 可 以 在 Output 中 查看 状态 。 























到 这 里 Hadoop Studio 的 使 用 方法 已 经 介绍 完毕 ， 我 们 从 本 机 和 集群 两 个 角度 分 别 介绍 了 
不 同 任务 的 部 署 和 运行 ， 同 时 还 介绍 了 如 何 使 用 Hadoop Studio 监 控 用 户 任务 ， 以 及 利用 其 
户 界面 简化 Hadoop 任 务 的 创建 、 调 试 、 监 控 和 执行 。Hadoop Studio 的 可 视 化 设计 和 全 面 的 功 
能 大 大 降低 了 基于 Hadoop 项 目的 开发 难度 ， 值 得 所 有 Hadoop 使 用 者 和 开发 者 使 























































































































18.2 Hadoop Eclipse 的 介绍 和 使 


18.2.1 Hadoop Eclipse 的 介绍 

















Hadoop 是 一 个 强大 的 并 行 框架 ， 它 允许 任务 在 其 分 布 式 集群 上 并 行 处 理 。 但 是 编写 、 调 
试 Hadoop 程 序 都 有 很 大 的 难度 。 正 因为 如 此 ，Hadoop 的 开发 者 开发 出 了 Hadoop Eclipse 插 
件 ， 它 在 Hadoop 的 开发 环境 中 嵌入 Eclipse， 从 而 实现 了 开发 环境 的 图 形 化 ， 降 低 了 编程 难 
度 。 在 安装 插件 、 配 置 Hadoop 的 相关 信息 之 后 ， 如 果 用 户 创建 Hadoop 程 序 ， 插 件 会 自动 导 
入 Hadoop 编 程 接口 的 JAR 文 件 ， 这 样 用 户 就 可 以 在 Eclipse 的 图 形 化 界面 中 编号、 调试、 运行 
Hadoop 程 序 〈 包 括 单机 程序 和 分 布 式 程序 ) ， 也 可 以 在 其 中 查看 自己 程序 的 实时 状态 、 错 误 
信息 和 运行 结果 ， 还 可 以 查看 、 管 理 HDFS 及 其 文件 。 总 的 来 说 ，Hadoop Eclipse 插件 安装 简 
单 ， 使 用 方便 ， 功 能 强大 ， 尤 其 是 在 Hadoop 编 程 方面 ， 是 Hadoop 入 门 和 Hadoop 编 程 必 不 可 
少 的 工具 。 





































































































18.2.2 Hadoop Eclipse 的 安装 配置 


面 将 以 Hadoop 官 方 下 载 包 吕 


Hadoop Eclipse 插件 有 很 多 版 本 ， 比 如 Hadoop 官 方 下 载 包 上 
的 插件 为 例 介绍 安装 和 使 








hb 的 版 本 、IBM 的 版 本 等 。 下 

















方法 。 





装 插件 之 前 先 要 安装 


Hadoop 和 Eclipse 〈 这 部 分 内 容 略 去 ， 直 接 介绍 插件 的 安装 ) 。 需 要 注意 的 是 ， 在 Hadoop1.0 
版 本 中 ， 并 没有 像 0.20 版 本 那样 ， 在 HADOOP_HOME/contrib./eclipse-plugin 有 现成 的 Eclipse 





插件 包 ， 而 是 在 HADOOP_HOME/src/contrib/eclipse-plugin 目 录 下 放置 了 Eclipse 插 件 的 源 
于 Hadoop1.0 的 Eclipse 插 件 。 


码 。 


ivy 4 
件 的 最 末 





1. 安 装 环境 


操作 系统 : Ubuntu 11.10 


Eclipse 3. 7 


Java 1. 6.0_22 


Hadoop 1. 0.1 


2. 编 译 步骤 


下 面 将 详细 介绍 如 何 编译 此 源码 4 





E 成 适 




















1) 首先 需要 下 载 ant 和 ivy 安装 包 。 将 下 载 的 两 个 安装 包 解 
hivy-2.2.0.jar 包 ant 安 装 目 录 的 lib 目 录 下 ， 然 后 配置 /etc/profile 吕 











尾 添加 下 面 内 容 〈 请 以 自己 的 安装 路 径 蔡 换 下 面 配 置 内 容 的 








压 到 待 安装 的 目录 下 ， 然 后 将 


hant 的 安装 目录 。 在 文 
路 径 部 分 ) : 


Eee- Ė/ 
export ANT_HOME=/home/ubuntu/apache-ant-1.8.3 
export PATH="SANT_HOME/bin: $PATH" 


SSS 


2) 将 终端 路 径 定 位 到 Hadoop 安 装 目 录 下 ， 执 行 ant compile 。 这 一 命令 需要 执行 的 时 间 


稍 长 。 


3) 再 将 终端 的 路 径 定 位 到 HADOOP_HOME/src/contrib/eclipse-plugin。 然 后 执行 下 面 的 
命令 ， 注 意 -D 后 紧 跟 Eclipse 安 装 路 径 和 Hadoop 版 本 ， 并 没有 空格 。 





ee” | 
ant-Declipse.home=/home/ubuntu/eclipse-Dversion=1.0.1 jar 
一 


4) 命令 执行 完 之 后 ， 就 可 





自己 生成 的 Eclipse 插件 了 。 下 面 就 可 以 安装 配置 Eclipse 插件 。 


3. 安 装 步 又 





Eclipse. 


) 将 Hadoop Eclipse plugin 移 动 到 Eclipse 的 插件 文件 夹 〈 即 Eclipseplugins) 中。 


[以 在 HADOOP_HOME/build/contrib/hadoop-eclipse 路 径 下 找到 











2) 在 Eclipse 中 打开 Hadoop 视 图 。 依 次 选择 : Eclipse 一 Window 一 perspective 一 Other， 然 








后 选择 Map/Reduced 并 点 击 OK。Eclipse 会 出 现 Hadoop 视 图 。 左 边 Project Explore 


Locations， 下 方 


3) 在 下 方 选项 卡 中 选中 Map/Reduce Locations， 然 


Hadoop location 


Hadoop. 








选项 卡 中 会 出 现 Map/Reduce Locations 选 项 卡 。 





后 在 出 现 的 空白 处 右键 























TI 会 出 现 DFS 





选择 New 





eae ， 这 时 会 弹出 配置 Hadoop location 的 窗口 。 按 照 下 面 的 提示 了 


Location Name-hadoop 


Map/Reduce Master: 


Host-localhost 


Port-9001 


DFS Master: 


E 确 配置 





Host-localhost 


Port-9000 








User name- 系 统 用 户 名 











配置 完成 之 后 点 击 finish, Map/Reduce Locations 下 就 会 出 现 新 配置 的 Map/Reduce 
location。Eclipse 界 面 左 边 的 DFS location 下 面 也 出 现 新 配置 的 DFS， 点 击 “+” 可 以 查看 其 结 
构 。 





到 此 ，Hadoop Eclipse 插件 已 经 安装 完成 ， 可 以 辅助 大 家 开发 MapReduce 程 序 和 管理 
HDFS 集 群 。 由 于 对 于 HDFS 的 管理 比较 简单 ， 下 面 仅 举 例 介绍 如 何 使 用 此 插件 来 简化 大 家 
MapReduce 程 序 的 编写 。 



































18.2. 




















3 Hadoop Eclipse 的 使 用 举例 








首先 打开 Hadoop 视 图 〈 图 略 ) ， 然 后 右键 点 击 Project Explorer 空 白 处 选择 
New 一 Project。 在 创建 工程 向 导 中 选择 创建 Map/Reduce 工 程 ， 然 后 输入 工程 名 ， 点 击 
此 时 Project Explore 中 会 出 现 新 创建 的 工程 。 接 下 来 就 是 编写 具体 的 MapReduce 代 码 
了 ， 有 两 种 做 法 。 一 种 是 右键 点 击 新 建 工程 然后 新 建 一 个 class， 并 输入 自己 完整 的 
MapReduce 的 代码 以 新 建 class 代 码 区 。 注 意 ， 代 码 中 的 类 名 要 和 创建 类 时 输入 的 类 名 相同 ， 
代码 编写 完 之 后 直接 选择 Run on Hadoop 即 可 。 另 外 一 种 方法 是 分 别 建 立 MapReduce Driver, 
Mapper、Reducer， 再 在 Hadoop 上 运行 MapReduce Driver。 下 面 详细 介绍 这 两 种 方法 。 


finish, 


1 


方法 一 是 在 MapReduce 工 程 




















TR 
































创建 符合 MapReduce 程 序 框架 的 普通 class 文 件 ， 然 后 在 


Hadoop 运 行 。 这 种 办 法 直接 明了 ， 灵 活性 比较 高 。 具 体 步 又 如 下 : 


首先 在 刚才 新 创建 的 Hadoop 了 
类 名 TestMapReduce 之 后 点 二 


书 第 6 








章 的 程序 都 可 以 ) 。 


[ 程 上 右键 点 击 依次 选择 New 一 class， 然 后 点 击 Next， 输 入 
Ffinish。 然 后 在 class 文 件 中 输入 自己 的 MapReduce 框 架 函 数 ( 本 





然后 选中 TestMapReduce 之 后 选择 Run on Hadoop。 在 输出 窗口 就 可 以 看 到 程序 在 Hadoop 
上 执行 的 实时 信息 。 





需要 注意 的 是 ， 如 果 选 择 Run as Java Application， 程 序 会 在 类 似 于 单机 模式 的 Hadoop 上 
运行 ， 这 时 程序 的 输入 和 输出 都 是 本 地 的 目录 ， 而 不 是 HDFS 上 的 目录 。 


2 


方法 三 


方法 二 是 在 创建 三 个 MapReduce 框 架 的 类 时 ， 会 自动 添加 上 继承 的 类 和 实现 的 接口 以 及 


接口 





hb 需要 覆盖 的 函数 ， 这 样 大 家 只 需要 修改 类 中 





FP 的 函数 即 可 ， 非 常 方 便 。 具 体 步 又 如 下 : 


首先 在 刚才 新 创建 的 Hadoop 工 程 上 右键 点 击 依次 选择 
New 一 Other 一 Map/Reduce 一 Mapper， 然 后 点 击 Next， 输 入 类 名 TestMapper 之 后 点 击 finish 。 
在 自动 生成 的 Map 函 数 中 输入 自己 的 处 理 函 数 。 需 要 注意 的 是 ，Mapper 抽 象 类 中 Map 方 法 的 
参数 类 型 和 自动 生成 的 不 匹配 ， 只 需要 按照 提示 修改 自动 生成 Map 函 数 的 参数 类 型 就 可 以 
Ts 


























接 下 来 在 刚才 新 创建 的 Hadoop 工 程 上 右键 点 击 依次 选择 
New 一 Other 一 Map/Reduce 一 Reducer， 然 后 点 击 Next， 输 入 类 名 TestReducer 之 后 点 击 
finish。 在 自动 生成 的 Reduce 函 数 中 输入 自己 的 处 理 函数 。 同 样 需 要 按照 提示 修改 自动 生 
Map 函 数 的 参数 类 型 ， 使 其 和 Reducer 抽 象 类 中 Reduce 方 法 的 类 型 匹配 。 











= 














最 后 在 刚才 新 创建 的 Hadoop 工 程 上 右键 点 击 依次 选择 
New 一 Other 一 Map/Reduce 一 MapReduceDriver， 然 后 点 击 Next， 输 入 类 名 TestDriver 之 后 点 
击 finish。 如 果 生 成 的 代码 中 有 下 面 两 行内 容 : 














OC 
conf.setInputPath (new Path ("sre") ); 
conf.setOutputPath (new Path ("out") ) ; 


和 








H 

















这 两 个 内 容 是 配置 MapReduce Job 在 集群 上 的 输入 和 输出 路 径 ， 使 用 的 API 和 Hadoopj 
的 API 不 匹配 。 因 此 需要 将 这 两 段 代码 改 成 : 


os = 
conf.setInputFormat (TextInputFormat.class) ; 
conf.setOutputFormat (TextOutputFormat.class) ; 
FileInputFormat.setInputPaths (conf, new Path ("In") ); 
FileOutputFormat.setOutputPath (conf, new Path ("Out") ); 


| 














同时 还 需要 确认 Map/Reduce 工 程 下 已 经 创建 了 输入 文件 夹 In 且 没有 输出 文件 夹 Out。 在 
自动 生成 的 代码 中 还 有 下 面 的 两 行 : 











= = 
conf.setMapperClass (org.apache.hadoop.mapred.lib.IdentityMapp 
conf.setReducerClass (org.apache.hadoop.mapred.lib.IdentityRed 


























它们 的 作用 是 配置 MapReduce Job 中 Map 过 程 的 执行 类 和 Reduce 过 程 的 执行 类 ， 也 就 是 
前 两 个 步 又 编写 的 两 个 Class。 所 以 将 这 两 行 修改 成 下 面 的 内 容 : 





SS 
conf.setMapperClass (TestMapper.class) ; 
conf.setReducerClass (TestReducer.class) ; 
有 





最 后 在 TestDriver 类 名 上 点 击 右键 依次 选择 Run As 一 Run on Hadoop， 并 选择 之 前 已 经 配 
置 的 Hadoop server， 点 击 finish， 接 下 来 就 可 以 看 到 Eclipse 开始 运行 TestDriver 了 。 这 里 需要 
注意 的 问题 有 两 个 : 








1) 如 果 任 务 执行 失败 ， 出 错 提示 为 Java space heap。 这 主要 是 因为 Eclipse 执行 任务 时 内 
存 不 够 ， 导 致 任务 失败 ， 解 决 的 办 法 是 选中 工程 并 点 击 Run 一 Run Configuretions， 点 击 出 现 
窗口 中 间 的 Arguments 选 项 卡 ， 在 VM arguments 中 写 入 : -Xms512m-Xmx512m， 然 后 点 击 
Apply ， 接 下 来 就 可 以 正常 执行 程序 了 。 这 句 话 的 主要 作用 是 配置 这 个 工程 可 以 使 用 的 内 存 
最 小 值 与 最 大 值 都 是 512MB。 

































































2) 如 何 调试 MapReduce 程 序 。 安 装 有 Hadoop Eclipse 插件 的 Eclipse 可 以 调试 MapReduce 
程序 ， 调 试 的 办 法 就 是 正常 Java 程 序 在 Eclipse 中 的 调试 办 法 ， 即 设置 断 点 ， 启 动 Debug， 按 








18.3 Hadoop Streaming 的 介绍 和 使 











三 





18.3.1 Hadoop Streaming 的 介绍 


Hadoop Streaming 是 Hadoop 的 一 个 工具 ， 它 帮助 


作业 ， 这 些 特 殊 的 MapReduce 作 业 是 

















户 创建 和 运行 一 类 特殊 的 MapReduce 








一 些 可 执行 文 伯 

















也 就 是 说 Hadoop Streaming fù VFN 


非 Java 的 编程 语 

















Streaming 用 STDIN (标准 输入 〉 和 ST 











F 或 脚本 文件 充当 Mapper 或 Reducer。 
言 编 写 MapReduce 程 序 ， 然 后 








数据 交换 ， 并 提交 给 Hadoop。 命 令 格 式 如 下 : 





DOUT 标准 输出 来 和 我 们 编写 的 Map 和 Reduce 进 行 


[| 
SHADOOP_HOME/bin/hadoop jar$HADOOP HOME/hadoop-streaming.jar\ 


-input myInputDirs\ 
-output myOutputDir\ 
-mapper/bin/cat\ 
-reducer/bin/we 


一 





1.Streaming 的 工作 原理 


在 上 面 的 命令 里 ，Mapper 和 Reducer 都 是 可 执行 文件 ， 它 们 从 标准 输入 按 行 读 入 数据 ， 
ming 工 具 会 创建 一 个 MapReduce 作 业 ， 并 把 它 发 送 给 合 
适 的 集群 ， 同 时 监视 这 个 作业 的 整个 执行 过 程 。 


并 把 计算 结果 发 送 给 标准 输出 。Strea 




















如 果 一 个 可 执行 文件 被 用 于 Mapper， 则 在 




















初始 化 时 ， 每 一 个 Mapper 任 务 会 把 这 个 可 





执行 文件 作为 一 个 单独 的 进程 启动 。Mapper 任 务 运 行 时 ， 它 把 输入 切 分 成 行 ， 并 把 结果 提供 


给 可 执行 文件 对 应 进程 的 标准 输入 。 





同时 ， 它 会 收集 可 执行 文件 进程 标准 输出 的 内 容 ， 并 把 





收 到 的 每 一 行内 容 转 化 成 key/value 对 ， 作 为 输出 。 默 认 情 况 下 ， 一 行 中 第 一 个 tab 之 前 的 部 分 
被 当做 key， 之 后 的 (不 包括 tab) 被 当做 value。 如 果 没 有 tab， 则 整 行内 容 被 当做 key 值 ， 
value 值 为 null。 具 体 的 转化 策略 会 在 下 面 讨论 。 

















如 果 一 个 可 执行 文件 被 用 于 Reducer， 每 个 Reducer 任 务 同样 会 把 这 个 可 执行 文件 作为 一 











个 单 
对 应 
化 成 

(不 


价 : 


独 的 进程 启动 。Reducer 任 务 运 行 时 ， 它 把 输入 切 分 成 行 ， 并 把 结果 提供 给 可 执行 文件 
进程 的 标准 输入 。 同 时 ， 它 会 收集 可 执行 文件 进程 标准 输出 的 内 容 ， 并 把 每 一 行内 容 转 
keyNwalue 对 ， 作 为 输出 。 默 认 情 况 下 ， 一 行 中 第 一 个 lab 之 前 的 部 分 被 当 作 key， 之 后 的 
包括 tab) 被 当做 value 。 









































户 也 可 以 使 用 Java 类 作为 Mapper 或 Reducer。 本 节 最 初 给 出 的 命令 与 这 里 的 命令 等 


和 


SHADOOP_HOME/bin/Hadoop jar$HADOOP_HOME/Hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper org.apache.hadoop.mapred.lib.IdentityMapper\ 
-reducer/bin/we 


TT | 


返回 


事先 




















户 可 以 设 定 stream.non.zero.exitis.failure 的 值 为 true 或 false， 从 而 表明 streaming task 的 
值 非 零 时 是 Failure 还 是 Success。 默 认 情况 下 ，streaming task 芭 回 非 零 时 表示 失败 。 





2. 将 文件 打包 到 提交 的 作业 中 




















利用 Streaming 用 户 可 以 将 任何 可 执行 文件 指定 为 Mapper/Reducer。 这 些 可 执行 文件 可 以 
存放 在 集群 上 ， 也 可 以 用 -file 选 项 让 可 执行 文件 成 为 作业 的 一 部 分 ， 并 且 会 一 起 打包 提 
例如 : 






































$HADOOP_HOME/bin/hadoop jar$HADOOP HOME/hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper myPythonScript.py\ 

-reducer/bin/wc\ 

-file myPythonScript.py 


下 

















上 面 的 例子 描述 了 一 个 用 户 把 可 执行 Python 文件 指定 为 Mapper。 其 中 的 选项 “-file 














myPythonScirptpy” 使 可 执行 Python 文件 作为 作业 的 一 部 分 被 上 传 到 集群 的 机 器 上 。 

















除了 可 执行 文件 外 ， 其 他 Mapper 或 Reducer 需 要 用 到 的 辅助 文件 〈 比 如 字典 、 配 置 文件 

















等 ) 也 可 以 用 这 种 方式 打包 上 传 。 例 如 : 




















$l 
SHADOOP_HOME/bin/hadoop jar$HADOOP_HOME/hadoop-streaming.jar\ 


-input myInputDirs\ 
-output myOutputDir\ 
-mapper myPythonScript.py\ 
-reducer/bin/wc\ 

-file myPythonScript.py\ 
-file myDictionary.txt 


| | 














3.Streaming 选 项 与 用 法 

















(1) 只 使 用 Mapper 的 作业 





























有 时 候 只 需要 使 用 Map 函 数 处 理 输入 数据 。 这 时 只 须 把 mapred.reduce.tasks 设 置 为 零 ， 
Mapreduce 框 架 就 不 会 创建 Reducer 任 务 ，Mapper 任 务 的 输出 就 是 整个 作业 的 最 终 输出 。 











为 了 做 到 向 下 兼容 ，Hadoop Streaming 也 支持 “-reduce None” 选 项 ， 它 与 “-jobconf 








mapred.reduce.tasks=0” fff - 





(2) 为 作业 指定 其 他 属性 




















和 其 他 普通 的 MapReduce 作 业 一 样 ， 











F: 


户 可 以 为 Steaming 作 业 指 定数 据 格式 ， 命 令 如 


一 


-inputformat JavaClassName 
-outputformat JavaClassName 
-partitioner JavaClassName 
-combiner JavaClassName 


| 








如 果 不 指定 输入 格式 ， 程 序 会 默认 使 














TextIn 


值 是 LongWritable 类 型 的 (key 值 并 不 是 输入 文件 中 
被 丢弃 ， 只 会 把 value 用 管道 方式 发 给 Mapper。 


























putFormat。 因 为 TextInputFormat 得 到 的 key 
hb 的 内 容 ， 而 是 value 偏 移 量 ) ， 所 以 key 会 




















另外 ， 用 户 提 供 的 定义 输出 格式 的 类 需要 能 够 处 理 Text 类 型 的 key/value 对 。 如 果 不 指定 
输出 格式 ， 则 默认 会 使 用 TextOutputFormat 类 。 
































(3) Hadoop Streaming 中 的 大 文件 和 档案 














任务 依据 -File 和 -Archive 选 项 在 集群 中 分 发 文件 和 档案 ， 选 项 的 参数 是 用 户 已 上 传 至 
HDFS 的 文件 或 档案 的 URI。 这 些 文件 和 档案 在 不 同 的 作业 间 缓 在。 用 户 可 以 通过 
fs.default.name 配 置 参 数 的 值得 到 文件 所 在 的 host 和 fs_port。 






































下 面 是 使 用 -cacheFile 选 项 的 例子 : 











| 
-File hdfs: //host: fs_port/user/testfile.txt#testlink 
| 


在 上 面 的 例子 里 ，URL 中 # 后 面 的 内 容 是 建立 在 任务 当前 工作 目录 下 的 符号 链接 的 名 
字 。 这 个 任务 的 当前 工作 目录 下 有 一 个 “testlink* 符 号 链接 ， 它 指向 testfile.txt 文 件 在 本 地 的 复 
制 位 置 。 如 果 有 多 个 文件 ， 选 项 可 以 写成 ; 











es | 
-File hdfs: //host: fs_port/user/testfilel.txt#testlinkl 
-File hdfs: //host: fs_port/user/testfile2.txt#testlink2 


1 











-Archive 选 项 用 于 把 JAR 文 件 复制 到 任务 当前 工作 目录 ， 并 自动 把 JAR 文 件 解压 缩 。 例 
如 : 

















= 
-Archive hdfs: //host: fs_port/user/testfile.jar#testlink3 
ee | 


在 上 面 的 例子 中 ，testlinl3 是 当前 工作 目录 下 的 符号 链接 ， 它 指向 testfile.jar 解 压 后 的 目 








录 。 














下 面 是 使 用 -Archive 选 项 的 另 一 个 例子 。 其 中 ，inputtxt 文 件 有 两 行内 容 ， 分 别 是 两 个 文 
件 的 名 字 : testlinkcache.tkt 和 testlinkcache2.txt。 “testlink' 是 指向 档案 目录 (JAR 文 件 解压 后 











的 目录 ) 的 符号 链接 ， 这 个 目录 下 有 “cache.txt* 和 “cache2.txt”* 两 个 文件 。 代 码 如 下 所 示 : 


========3 
SHADOOP_HOME/bin/Hadoop jar$HADOOP HOME/Hadoop-streaming.jar\ 
-input"/user/me/samples/cachefile/input.txt"\ 
-mapper"xargs cat"\ 
-reducer"cat"\ 
-output"/user/me/samples/cachefile/out"\ 
-Archive'hdfs: //Hadoop-nnl.example.com/user/me/samples/ 
cachefile/cchedir.jar#testlink'\ 
-D mapred.map.tasks=1\ 
-D mapred.reduce.tasks=1\ 
-D mapred.job.name="Experiment" 
$ls test_jar/ 
cache.txt cache2.txt 
$jar cvf cachedir.jar-C test_jar/. 
added manifest 
adding: cache.txt (in=30) (out=29) (deflated 3%) 
adding: cache2.txt (in=37) (out=35) (deflated 5%) 
$Hadoop dfs-put cachedir.jar samples/cachefile 
$Hadoop dfs-cat/user/me/samples/cachefile/input.txt 
testlink/cache.txt 
testlink/cache2.txt 
Scat test_jar/cache.txt 
This is just the cache string 
Scat test_jar/cache2.txt 
This is just the second cache string 
$Hadoop dfs-ls/user/me/samples/cachefile/out 
Found 1 items 
/user/me/samples/cachefile/out/part-00000<r 3>69 
$Hadoop dfs-cat/user/me/samples/cachefile/out/part-00000 
This is just the cache string 
This is just the second cache string 


二 一 


4. 为 作业 指定 附加 配置 参数 


























户 可 以 使 用 “-jobconf<n 二 =<v 二 ”增加 一 些 配 置 变量 。 例 如 : 





ee 一 一 一 3 
SHADOOP_HOME/bin/Hadoop jar$HADOOP HOME/Hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 

-mapper org.apache.Hadoop.mapred.lib.IdentityMapper\ 
-reducer/bin/wc\ 

-D mapred.reduce.tasks=2 


| 


在 上 面 的 例子 中 ，-jobconf mapred.reduce.tasks=2# H 





关于 jobconf 参 数 的 更 多 细节 可 以 参考 Hadoop 安 装 包 中 





5. 其 他 选项 











Streaming 命 令 的 其 他 选项 如 表 18-3 所 示 。 


表 18-3 Streaming 命令 选项 表 











两 个 Reducer 完 成 作业 。 











内 Hadoop-defaulthtml 文 件 。 

















选 项 sR | BAL Hio £ 
-cluster name 4 在 本 地 Hadoop 集群 与 一 个 或 多 个 远程 集群 进行 切换 
-dfs host:port or local 可 选 AGE (eke HDFS 配置 
-jt host:port or local 可 选 MEE TEMS JobTracker 配置 
-additionalconfspee specfile 可 选 用 一 个 业 似 干 Hadoop-site.xml 的 XML 文件 保存 所 有 配置 ， 从 而 不 需 


要 用 多 个 "-jobconf name=value" 类 型 的 选项 单独 六 


个 配置 变量 赋值 








-cmdenv name=value 


传递 环境 变量 给 streaming G4 





-File fileNameURI 


指定 一 个 上 传 到 HDFS 的 文件 





-Archive fileNameURI 





到 当前 工作 目录 


指定 一 个 上 传 到 HDFS H JAR 文件 ， 这 个 JAR 文件 会 被 自动 解压 缩 





-inputreader JavaClassName J ATR RE FH 





-个 record reader 类 (而 不 是 input format 类 ) 





-verbose 


tf 


DES 详细 




















使 用 -cluster 二 name 二 实现 “本 地 ”Hadoop 和 一 个 或 多 个 远程 Hadoop 集 群 间 的 切换 。 默 认 





















































情况 下 ， 使 
SHADOO 














-cluster<name 二 选项 时 ， 会 使 








Hadoop-defaultxml 和 Hadoop-site.xml。 当 使 


P_HOME/conf/Hadoop-<name>.xml. 


下 面 的 选项 可 改变 temp 目 录 ; 


SSeS | 
-D dfs.data.dir=/tmp 


| 














下 面 的 选项 指定 其 他 本 地 temp 目 录 : 


===== === 二 二 = 
-D mapred.local.dir=/tmp/local 
-D mapred.system.dir=/tmp/system 
-D mapred.temp.dir=/tmp/temp 


二 一 


在 streaming 命 令 中 设置 环境 变量 : 





Eceo 
-cmdenv EXAMPLE DIR=/home/example/dictionaries/ 


| | 

















18.3.2 Hadoop Streaming 的 使 用 举例 








Hadoop Streaming 插 件 是 Hadoop 安 装 包 当中 的 一 个 JAR 文 件 ， 具 体位 置 在 .……AHadoop- 
1.0.1\contrib\streaming 目 录 下 ， 所 以 Hadoop Streaming 插 件 是 直接 使 用 的 ， 只 需要 在 执行 
Hadoop 程 序 时 输入 命令 Hadoop Streaming 就 可 以 了 ， 无 须 安装 ， 在 编写 MapReduce 程 序 时 ， 
只 要 按照 整个 框架 要 求 并 根据 自己 的 需要 编写 出 符合 对 应 语言 格式 的 程序 ， 然 后 用 下 面 的 命 
令 格式 将 程序 提交 给 Hadoop 就 可 以 了 : 


SSS—_SSSS=SSSS—SSS==—S=SSSSS—_—SSSSsa 
$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/hadoop-streaming.jar\ 
-input myInputDirs\ 

-output myOutputDir\ 
-mapper/bin/cat\ 
-reducer/bin/we 


二 一 
群 ， 


















































需要 注意 的 是 ， 程 序 执行 所 需要 的 支持 文件 也 要 在 提交 程序 的 同时 提交 到 Hadoop 鲁 
这 在 前 面 已 有 说 明 ， 不 再 歼 述 。 下 面 以 一 个 用 PHP 语 言 编写 的 WordCount 使 用 Hadoop 
Streaming 提 交 的 程序 为 例 ， 来 说 明 此 插件 使 用 方法 〈Linux 系 统 下 需要 安装 PHP 环 境 ， 命 令 


att 


















































为 sudo apt-get install phpS-client) 。 
程序 代码 举例 如 下 所 示 。 


(1) Mapper. php 


[ee | 
#! /usr/bin/php 
<?php 
$word2count=array O ; 
// 标 准 输入 STDIN (standard input) 


while ( ($line=fgets (STDIN) ) ! ==false) { 

// 移 除 小 写 与 空 

$line=strtolower (trim ($line) ) ; 

// 切 词 

$words=preg_split ('/\W/', $line, 0, PREG SPLIT NO EMPTY) ; 
// 将 字 +1 


foreach ($words asSword) { 
$word2count [$word] +=1; 


} 


} 

// 结 果 写 到 STDOUT (standard output) 
foreach ($word2count as$word=>S$count) { 
echo$word, chr (9) , $count, PHP_EOL; 

} 

> 


es 
(2) Reduce.php 


一 
#! /usr/bin/php 
<?php 
Sword2count=array O ; 
// 输 入 为 STDIN 
while ( ($line=fgets (STDIN) ) ! ==false) { 
// 移 除 多 余 的 空白 
$line=trim ($line) ; 
// 每 一 行 的 格式 为 〈 字 "tab" 数 字 ) ， 记 录 到 (Sword, $count) 
list ($word, $count) =explode (chr (9), $line) ; 
/ /转换 格式 string->>int 
$count=intval ($count) ; 
// 求 总 的 频数 
if (Scount>0) $word2count [$word] +=$count; 


} 

// 此 行 非 必要 内 容 ， 但 可 让 output 排 列 更 完整 
ksort ($word2count) ; 

// 将 结果 写 到 STDOUT (standard output) 
foreach ($word2count as$word=>S$count) { 
echo$word, chr (9) , $count, PHP_EOL; 
?> 


| 一 














执行 情况 如 下 : 


一 
$bin/Hadoop jar contrib/streaming/Hadoop-0.20.2- 
streaming.jar\ 
-mapper/opt/Hadoop/mapper.php-reducer/opt/Hadoop/reducer.php- 
input lab4 input 
-output stream_out2 
= 


下 面 来 查看 一 下 结果 : 


人 Eee 
Sbin/Hadoop dfs-cat stream_out2/part-00000 


ETT 

















18.3.3 ”使 用 Hadoop Streaming 常 见 的 问题 





1. 如 何 处 理 多 个 文件 ， 其 中 每 个 文件 一 个 Map? 


























需要 处 理 多 个 文件 时 ， 用 户 可 以 采用 多 种 途径 ， 这 里 以 在 集群 上 压缩 (zipping) 多 个 文 
件 为 例 ， 用 户 可 以 使 用 以 下 几 种 方法 : 






























































(1) 使 用 Hadoop Streaming 和 用 户 编写 的 mapper 脚 本 程序 。 








先生 成 一 个 文件 ， 文 件 中 包含 所 有 要 压缩 的 文件 在 HDFS 上 的 完整 路 径 。 每 个 Map 任 务 获 
得 一 个 路 径 名 作为 输入 。 





然后 创建 一 个 Mapper 脚 本 程序 ， 实 现 如 下 功能 : 获得 文件 名 ， 把 该 文件 复制 到 本 地 ， 压 
缩 该 文件 并 把 它 发 到 期 望 的 输出 目录 中 。 


于 




















(2) 使 用 现 有 的 Hadoop 框 架 








在 main 函 数 中 添加 如 下 命令 : 





= | 
FileOutputFormat.setCompressOutput (conf, true); 
FileOutputFormat.setOutputCompressorClass (conf, 
org.apache.Hadoop.io.compress. 
GzipCodec.class) ; 
conf.setOutputFormat (NonSplitableTextInputFormat.class) ; 
conf.setNumReduceTasks (0); 


1 
编写 Map 函 数 : 


TTT | 
public void map (WritableComparable key, Writable value, 
OutputCollector output, 

Reporter reporter) throws IOException{ 
output.collect ( (Text) value, null); 
} 


TTT | 


注意 输出 的 文件 名 和 原文 件 名 不 同 。 


2. 如 果 在 Shell 脚 本 里 设置 一 个 别名 ， 并 放 在 -mapper 之 后 ，Streaming 会 正常 运行 吗 ? 例 


W, alias cl-'cut-fl', -mapper"cl" 23247 IE %14 ? 




















脚本 里 是 无 法 使 用 别名 的 ， 但 是 允许 变量 替换 ， 例 如 : 











一 
$Hadoop dfs-cat samples/student_marks 
alice 50 
bruce 70 
charlie 80 
dan 75 
$c2='cut-f2'; SHADOOP_HOME/bin/Hadoop jar$HADOOP_HOME/Hadoop- 
streaming.jar\ 
-input/user/me/samples/student_marks 
-mapper\"$c2\"-reducer'cat!' 
-output/user/me/samples/student_out 
-jobconf mapred.job.name='Experiment' 
$Hadoop dfs-ls samples/student_out 
Found 1 items/user/me/samples/student_out/part-00000<r 3>16 
$Hadoop dfs-cat samples/student_out/part-00000 
50 
70 
TS: 
80 


一 











3. 在 Streaming 作 业 中 用 -file 选 项 运行 一 个 分 布 式 的 超大 可 执行 文件 (例如 ，3.6GB) 时 ， 
如 果 得 到 错误 信息 “No space left on device” 如 何 解 决 ? 

















于 配置 变量 stream.tmpdir 指 定 了 一 个 目录 ， 会 在 这 个 目录 下 进行 打 jar 包 的 操作 。 
stream.tmpdir 的 默认 值 是 /mp， 用 户 需 要 将 这 个 值 设置 为 一 个 有 更 大 空间 的 目录 : 


























[| 
-D stream.tmpdir=/export/bigspace/..... 


ee | 


4. 如 何 设置 多 个 输入 目录 ? 

















可 以 使 用 多 个 -input 选 项 设置 多 个 输入 目录 : 





人 
Hadoop jar Hadoop-streaming.jar-input'/user/foo/dirl'- 
input'/user/foo/dir2' 


5 





5. 如 何 生成 gzip 格 式 的 输出 文件 ? 











除了 纯 文本 格式 的 输出 ， 用 户 还 可 以 让 程序 生成 gzip 文 件 格式 的 输出 ， 只 需 将 Sreaming 
作业 中 的 选项 设置 为 “-D mapred.output.compress=true-jobconf 

















mapred.outputcompression.codec=org.apache.Hadoop.io.compress.GzipCode”。 


6. 在 Streaming 中 如 何 自 定义 input/output format? 




















在 Hadoop 0.14 版 本 以 前 ， 不 支持 多 个 jar 文 件 。 所 以 当 指 定 自 定义 的 类 时 ， 用 户 需 要 把 
它们 和 原 有 的 streaming jar 打 包 在 一 起 ， 并 用 这 个 自 定义 的 jar 包 替换 默认 的 Hadoop 
streaming jar 包 。 在 0.14 版 本 以 后 ， 就 无 须 打包 在 一 起 ， 只 需要 正常 的 编译 运行 





























7.Streaming 如 何 解析 XML 文档 ? 
































户 可 以 使 用 StreamXmlRecordReader 来 解析 XML 文档 ， 如 下 所 示 : 


ee | 
Hadoop jar Hadoop-streaming.jar-inputreader"StreamXmlRecord, 
begin=BEGIN_ 
STRING, end=END_STRING".... 
——CetTFFTEHOTonoNor”066V0v00@™—@—@—@—oOR os,” eee 


Map 任 务 会 把 BEGIN_STRING 和 END_STRING 之 间 的 部 分 看 做 一 条 记录 。 











a 











8. 在 Streaming 应 用 程序 中 如 何 更 新 计数 器 ? 




















Streaming 进 程 能 够 使 用 stderr 发 出 计数 器 信息 。 应 该 把 reporter: counter: <group>, 
<counter>, <amount> 发 送 到 stderr 来 更 新 计数 器 。 




















9. 如 何 更 新 Streaming 应 用 程序 的 状态 ? 

















Streaming 进 程 能 够 使 用 stderr 发 出 状态 信息 。 可 把 reporter: status: <message > Kiki) 





stderr 来 设置 状态 。 




















18.4 Hadoop Libhd& 的 介绍 和 使 


18.4.1 Hadoop Libhd& 的 介绍 


Libhdfs 是 一 个 基于 C 编 程 接 口 的 为 Hadoop 分 布 式 文件 系统 开发 的 JNI (Java Native 
Interface) ， 它 提供 了 一 个 C 语 言 接口 以 结合 管理 DFS 文 件 和 文件 系统 。 并 且 它 会 在 











${HADOOP_HOME}/libhdfs/libhdfs.so 中 预 编译 ， 它 是 Hadoop 分 布 式 结构 中 的 一 部 分 。 


18.4.2 Hadoop Libhd& 的 安装 配置 














在 安装 Libhdfs 之 前 首先 需要 安装 Hadoop 的 分 布 式 文件 系统 HDFS。 当 用 户 有 一 个 正在 运 
行 的 工作 集 时 ， 进 入 sre/c++/libhdfs 目 录 ， 使 用 makefile 文 件 安装 Libhdfs。 一 旦 安装 Libhdfs 成 
功 ， 用 户 可 以 通过 它 连接 到 自己 的 程序 。 


















































18.4.3 Hadoop LibhdS API 简 4 














这 部 分 将 介绍 Libhdfs 提 供 的 各 种 用 来 管理 DFS 的 API。 我 们 按照 管理 对 象 〈 单 个 文件 、 
文件 系统 ) 对 API 进 行 了 分 类 。 








1.FileSy stem API 

















Libhdfs 不 仅 提供 了 通用 文件 系统 管理 API， 比 如 创建 文件 夹 、 复 制 文 件 、 移 动 文件 等 ， 
还 提供 了 一 些 特殊 功能 的 API， 比 如 获取 备份 文件 信息 等 。 




















在 启动 时 应 该 在 任何 文件 或 文件 系统 操作 之 前 先 用 HDFSconnect API 将 Libhdfs 和 DFS 连 
接 起 来 。 还 有 一 个 类 似 的 hdfsdisconnect API 负 责 连 接 的 清除 。 














通用 操作 如 下 : 

















dfsCopy (也 适用 文件 系统 ) 























dfsMove (也 适用 文件 系统 》 





dfsRename 


dfsDelete 


Libhdfs 还 提供 了 在 DFS 上 管理 目录 的 API， 如 下 所 示 。 


dfsCreateDirectory 


dfsSetWorkingDirectory 


dfsGetWorkingDirectory 





dfsListDirectory /hdfsGetPathInfo/hdfsFreeFileInfo 


查询 filesystem 各 种 属性 的 API 如 下 。 
hdfsGetHosts 
hdfsGetDefaultBlockSize 
hdfsGetUsed/hdfsGetCapacity 

2.File APIs 


Libhdfs 提 供 了 一 些 类 似 于 POSIX (Portable Operating System Interface) 的 接口 来 实现 
单个 文件 上 的 操作 ， 比 如 create 、read/write 、query 等 ， 如 下 所 示 。 





fsOpenFile/hdfsClose File 


fsRead/hdfsW rite 


fsTell/hdfsSeek 


fsFlush 








fsAvailable 

















18.4.4 Hadoop Libhd& 的 使 用 举例 












































Libhdfs 可 以 用 在 POSIX 线 程 编写 的 线程 应 用 程序 中 。 无 论 是 与 JNI 的 全 局 还 是 局 部 引 
交互 ， 使 用 者 都 必须 显 式 地 调用 hdfsConvertToGlobalRef/hdfsDeleteGlobalRef API. 







































































下 面 是 一 个 Libhdfs 应 用 的 程序 。 


二 一 

#include"hdfs.h" 

int main (int argc, char**argv) { 

hdfsFS fs=hdfsConnect ("default", 0); 

const char*writePath="/tmp/testfile.txt"; 

hdfsFile writeFile=hdfsOpenFile (fs, writePath, 
O_WRONLY|O_CREAT, 0, 0, 0); 

if (! writeFile) { 

fprintf (stderr, "Failed to open%s for writing! \n", 
writePath) ; 

exit (-1); 

} 

char*buffer="Hello, World! "; 

tSize num_written_bytes=hdfsWrite (fs, writeFile, (void*) 
buffer, strlen (buffer) +1); 

if (hdfsFlush (fs, writeFile) ) { 

fprintf (stderr, "Failed to'flush'%s\n", writePath) ; 

exit (-1) 

} 

hdfsCloseFile (fs, writeFile) ; 


接 下 来 再 介绍 一 些 具体 情况 的 解决 办 法 。 


(1) 如 何 连 接 到 库 











使 用 Libhdfs 源 文件 目录 (${HADOOP_HOME}/src/c++/libhdfs/Makefile 〉 下 的 makefile 
或 者 使 用 下 面 的 命令 来 连接 库 : 




















| 
gcc above_sample.c-I${HADOOP_HOME}/src/c++/libhdfs- 

L$ {HADOOP_HOME}/libhdfs 
-lhdfs-o above_sample 
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(2) CLASSPATH 配 置 问题 























使 用 Libhdfs 最 常见 的 问题 就 是 在 运行 一 个 使 用 了 Libhdfs 的 程序 时 CLASSPATH 没 有 正确 
配置 Libhdfs。 请 确保 在 每 个 运行 Hadoop 所 必需 的 Hadoop jar 包 中 对 其 进行 了 正确 配置 。 另 
外 ， 目 前 还 没有 使 用 程序 自动 生成 CLASSPATH 的 方法 ， 但 有 一 个 很 好 的 办 法 就 是 引 




































































${HADOOP_HOME} 和 ${HADOOP_HOME}lib 下 的 所 有 JAR 包 ， 并 且 正 确 配置 hdfs-site.xml 
中 的 目录 。 








18.5 ”本 章 小 结 


本 章 介绍 了 
Hadoop Streaming 


发 环境 。Hadoop Studio 通 过 降 1 














使 








Hadoop 开 发 的 











9 种 常 




















生产 


。 用 户 可 


















对 信息 。Studio 的 优点 在 


氏 Hadoop 











的 使 





复杂 度 让 























于 无 论 
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视 化 四 




















Hadoop Eclipse 


NTE 














简化 





户 的 工作 ， 











提高 工人 





备件 














关 信息 之 后 ， 


如 果 用 户 创 




















户 就 可 以 在 Eclipse 的 图 开 


Ae 


梅 Hadoop 的 开发 环境 图 形 化。 在 编译 和 安装 播 
建 Hadoop 程 序 ， 插 件 会 自动 导入 Hadoop 编 程 接 口 的 jar 文 件 ， 这 
编号、 调试 、 运 行 Hadoop 程 序 〈 单 机 程序 和 分 布 式 











程序 都 可 以 ) 











K, ÈH 





Hadoop Streaming 是 Hadoop 的 一 个 工具 ， 
作业 ， 这 些 特殊 的 MapReduce 作 业 是 











T, 





HHadoop LibHdfs. Hadoop Studio 是 一 个 加 快 Hadoop 开 发 进程 的 可 视 人 
户 在 更 少 的 步 又 内 完成 更 多 芯 
以 通过 Hadoop Studio 强 大 的 GUI， 部 署 Hadoop 任 务 ， 并 监控 Hado， 
的 开发 经 验 有 多 少 ， 它 都 能 从 设计 、 
FE 效率 。Hadoop Studio 全 面 强大 的 





部 署 、 
功能 使 其 











牛 、 配 置 Hadoop 























它 帮助 











户 创建 和 运行 一 类 4 


使 月 














Hin 











Reducer。 本 章 也 举例 说 明了 它 的 使 


Libhdfs 是 一 个 基于 C 编 程 接口 、 
Interface) ， 它 提供 了 一 个 C 语 言 接口 以 结合 管理 DFS 文 件 和 文件 系统 。 它 在 


${HADOOP_HOME}/libhdfs/libhdfs.so4 


的 API 方 便 了 


有 具体 例子 ， 并 





方法 。 








为 Hadoop 


执行 文件 或 脚本 文件 充当 Mapper 或 者 

















Aw 


解决 方法 ， 和 希望 能 帮助 大 家 提高 使 有 








户 对 于 HDFS 和 HDFS 





P 预 编译 ， 是 Hadoop 分 布 式 结构 





中 的 一 


部 分 。 其 丰 





的 分 布 式 文件 系统 开发 的 JNI (Java Native 


的 相 





文件 


给 出 了 一 些 常见 问题 的 解决 办 法 。 





的 管理 。 在 这 部 分 内 容 的 最 后 给 出 了 Libhdfs 使 

















介绍 了 Hadoop 开 发 常 





的 四 种 插件 ， 从 安装 步骤 到 使 



































和 开发 Hadoop 的 效率 。 


方法 ， 








插件 ， 分 别 是 Hadoop Studio, Hadoop Eclipse. 
LFF 


p 




















也 可 以 在 其 中 查看 自己 程序 的 实时 状态 、 错 误 信息 和 运行 结果 了 ， 还 可 以 
查看 、 管 理 HDFS 和 其 他 文件 。 总 的 来 说 ，Hadoop Eclipse 插件 安装 简单 ， 方便 ， 功 能 强 


是 在 Hadoop 编 程 方 面 ， 是 Hadoop 入 门 和 Hadoop 编 程 必 不 可 少 的 工具 。 


竺 殊 的 MapReduce 


m} 


再 到 常见 问题 的 














第 19 章 ”企业 应 用 实例 








本 章 内 容 


Eà 











Hadoop 在 Yahoo! 的 应 

















Hadoop 在 eBay 的 应 




















Hadoop 在 百度 的 应 


即刻 搜索 中 的 Hadoop 








Facebook 中 的 Hadoop 和 HBase 


本 章 参考 资料 


当今 世界 ， 随 着 企业 的 数据 量 迅速 增长 ， 存 储 和 处 理 大 规模 数据 已 成 为 人 们 的 迫切 需 
求 。Hadoop 作 为 开源 的 云 计算 平台 ， 已 引起 了 学 术 界 和 企业 界 的 普遍 兴趣 。 使 用 它 ， 可 以 在 
不 了 解 分 布 式 底层 细节 的 情况 下 开发 分 布 式 应 用 程序 ， 并 处 理 大 规模 数据 。 由 于 Hadoop 性 能 
优秀 ， 它 已 在 一 些 公司 得 到 了 很 好 地 推广 。 


















































本 书 详细 讲解 了 Hadoop 中 HDFS 和 MapReduce 的 相关 知识 ， 并 简单 介绍 了 Hadoop 相 关 的 
Apache 项 目 。 本 章 将 从 企业 应 用 实例 方面 为 大 家 讲解 Hadoop 在 大 型 应 用 中 扮演 了 什么 角 
色 ， 如 何 搭建 基于 Hadoop 的 大 型 应 用 框架 以 及 如 何在 系统 开发 中 应 用 Hadoop 设 计 思 想 。 下 
面 我 们 将 选取 有 具有 代表 性 的 Hadoop 应 用 案例 进行 分 析 ， 让 大 家 了 解 Hadoop 在 企业 界 的 应 
情况 。 
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ETL 等 ， 同 样 ， 在 用 户 兴 趣 预测 、 


9.1 Hadoop 在 Yahoo! 

















的 应 





























关于 Hadoop 技 术 的 研究 和 应 用 ，Yahoo! 都 处 于 领先 地 位 ， 它 将 Hadoop 应 用 于 自己 的 各 
种 产品 中 ， 包 括 数据 分 析 、 内 容 优 化 、 反 垃圾 邮件 系统 、 广 告 的 优化 选择 、 大 数据 处 理 和 











Ç 




















在 Yahoo! 主页 个 性 化 方 

















搜索 排名 、 广 告 定位 等 方面 也 得 到 了 充分 地 应 











面 ， 实 时 服务 系统 通过 Apache 从 数据 库 中 读 取 user 到 interest 的 








上 映射， 并且 每 隔 5 分 钟 生产 环 境 中 的 Hadoop 集 群 就 会 基于 最 新 数据 重新 排列 内 容 ， 每 隔 7 分 钟 
则 在 页 面 上 更 新 内 容 。 


时 就 在 外 














在 邮箱 方面 ，Yahoo! 利 























Hadoop 集 群 根据 垃圾 邮件 模式 为 邮件 计 分 ， 并 且 每 隔 几 个 小 


和 群 上 改进 反 垃圾 邮件 模型 ， 集 群 系统 每 天 还 推动 530 亿 次 的 邮件 投递 。 





























目前 Hadoop 最 大 的 生产 应 用 是 Yahoo! 的 Search Webmap 应 用 ， 它 运行 在 超过 10 000 台 
机 器 的 Linux 系 统 集群 里 ，Yahoo! 的 网 页 搜索 查询 使 用 的 就 是 它 产生 的 数据 。Webmap 的 构 









































建 步骤 如 下 : 首先 进行 网 页 的 息 取 ， 同 时 产生 包含 所 有 已 知 网 页 和 互联 网 站 点 的 数据 库 ， 以 
及 一 个 关于 所 有 页 面 及 站 点 的 海量 数据 组 ， 然 后 这 些 数据 传输 给 Yahoo! 搜索 中 心 执行 排序 
算法 。 在 整个 过 程 中 ， 索 引 中 页 面 间 的 链接 数量 将 会 达到 1TB， 经 过 压缩 的 数据 产 出 量 会 达 
到 300TB， 运 行 一 个 MapReduce 任 务 就 需 使 用 超过 10 000 的 内 核 ， 而 在 生产 环境 中 使 用 数据 
的 存储 量 超过 5PB。 








Yahoo! 在 Hadoop 中 同时 
Latin 与 SQL 也 十 分 相似 。 





Ro 


务 




















先 了 解 一 下 大 规模 数据 的 使 用 和 处 理 背 景 。 大 规模 的 数据 处 理 通常 分 为 三 个 不 同 的 任 

































































使 用 了 Hive 和 Pig， 在 许多 人 看 来 ，Hive 和 了 Pig 大体 相似 而 且 Pig 




















那么 Yahoo! 为 什么 要 同时 使 用 这 些 技术 呢 ? 主要 是 因为 Yahool 的 
研究 人 员 查 看 了 它们 的 工作 负载 并 分 析 了 应 用 案例 后 认为 不 同 的 情况 下 需要 使 用 不 同 的 了] 






























































: 数据 收集 、 数 据 准备 和 数据 表示 ， 这 里 并 不 打算 介绍 数据 收集 阶段 ， 因 为 Pig 和 Hive 主 要 
于 数据 准备 和 数据 表示 阶段 。 





数据 准备 阶段 通常 被 认为 是 提取 、 转 换 和 加 载 (Extract Transform Load, ETL) 数据 的 


只 是 一 个 比喻 ， 现 实生 活 中 的 工厂 接 


阶段 ， 或 者 认为 这 个 阶段 是 数据 工厂 。 这 里 的 数据 工 / 


























受 原材料 后 会 输出 客户 所 需 的 产品 ， 而 数据 工厂 与 之 相似 ， 
客户 使 用 的 数据 集 。 这 个 阶段 需要 装载 和 清洗 原始 数据 ， 寺 





























尽 可 能 地 让 它 与 其 他 数据 源 结 合 等 。 这 一 阶段 的 客户 一 








它 在 输入 原始 数据 后 ， 输 出 可 供 
fF 让 它 遵守 特定 的 数据 模型 ， 还 要 


- 般 都 是 程序 员 、 数 据 专 家 或 研究 者 。 





数据 表示 阶段 一 般 指 的 都 是 数据 仓库 ， 数 据 仓库 存 
需要 选取 合适 的 产品 。 这 一 阶段 的 客户 可 能 是 系统 的 数据 工程 师 、 分 析 师 或 决策 者 。 











储 了 客户 所 需要 的 产品 ， 客 户 会 根据 





























根据 每 个 阶段 负载 和 用 户 情况 的 不 同 ，Yahoo! 在 不 同 的 阶段 使 用 不 同 的 工具 。 
诸如 Oozie 等 工作 流 系 统 的 Pig 特 别 适 合 于 数据 工厂 ， 而 Hive 则 适合 于 数据 仓库 。 下 面 将 分 别 














介绍 数据 工厂 和 数据 仓库 。 

















在 Yahoo! 的 数据 工厂 存在 三 种 不 同 的 工作 用 途 : 流水 线 、 迭 代 处 理 和 科学 研究 。 














经 典 的 数据 流水 线 包括 数据 反馈 、 清 洗 和 转换 。 一 
器 日 志 ， 这 些 日 志 需 要 进行 清洗 以 去 除 不 必要 的 信息 ， 














优化 条 件 和 可 扩展 的 性 能 。Pig Latin 是 关系 型 数据 流 语 


























发 者 在 数据 流水 线 的 任何 地 方 插入 自己 的 代码 。Pig 和 诸如 Oozie 等 的 工作 流 工 具 一 起 使 用 来 


创建 流水 线 ， 一 天 可 以 运行 数 以 万 计 的 Pig 作 业 。 











结合 了 


个 常见 例子 就 是 Yahoo! 的 网 络 服务 
数据 转换 则 是 要 找到 点 击 之 后 所 转 到 
的 页 面 。Pig 是 分 析 大 规模 数据 集 的 平台 ， 它 建立 在 Hadoop 之 上 并 提供 了 良好 的 编程 环境 、 











言 ， 并 且 是 Pig 核 心 的 一 部 分 ， 

FAURE, Pig Latin 相 比 SQL 而 言 更 适合 构建 数据 流 。 首 先 ，Pig Latin 是 面向 过 程 的 ， 
许 流水 线 开发 者 自 定义 流水 线 中 检查 点 的 位 置 ， 其 次 ，Pig Latin 允 许 开发 者 直接 选择 特定 的 
操作 实现 方式 而 不 是 依赖 于 优化 器 ， 另 外 ，Pig Latin 支 持 流水 线 的 分 支 ， 并 且 人 允许 流水 线 开 














基于 以 
HEAR 


























和 迭代 处 理 也 是 需要 Pig 的 ， 在 这 种 情况 下 通常 需要 维护 一 个 大 规模 的 数据 集 。 数 据 集 上 的 


典型 处 理 包 括 加 入 一 小 片 数据 后 就 会 改变 大 规模 数据 集 





的 状态 。 如 考虑 一 个 数据 集 ， 








它 存 储 


了 Yahoo! 新 闻 中 现 有 的 所 有 新 闻 。 我 们 可 以 把 它 想象 成 一 幅 巨 大 的 图 ， 每 个 新 闻 就 是 一 个 


节点 ， 新 闻 节 点 若 有 边 相连 说 明 这 些 新 闻 指 的 是 同一 件 











事件 。 每 隔 几 分 钟 就 会 有 新 的 新 闻 加 


入 进来 ， 这 些 工 具 需要 将 这 些 新 闻 节 点 加 到 图 中 ， 并 








i 











找到 相似 的 新 闻 节 点 用 边 连 接 起 来 ， 还 














要 删除 被 新 节点 覆盖 的 旧 节 点 。 这 和 标准 流水 线 不 同 ， 它 不 断 有 小 变化 ， 这 就 需要 使 用 增长 
处 理 模 型 在 合理 的 时 间 范 围 内 处 理 这 些 数据 。 例 如 ， 所 有 的 新 节点 加 入 到 图 中 后 ， 又 有 一 批 
新 的 新 闻 节 点 到 达 ， 在 整个 图 上 重新 执行 连接 操作 是 不 现实 的 ， 这 也 许 会 花费 数 个 小 时 。 相 
有 反 ， 在 新 增加 的 节点 上 执行 连接 操作 并 使 


程 只 需要 花费 几 分 钟 时 间 。 标 准 上 



































全 连接 ( 























fulljoin) 的 结果 是 可 行 的 ， 而 且 这 个 过 

















就 会 得 到 很 好 地 


Yahoo! 有 许多 的 科研 人 员 ， 他 们 需要 网 格 了 











YA 











的 数据 库 操作 可 以 使 














Pig Latin 通 过 上 述 方式 实现 ， 这 时 Pig 


[ 具 处 理 千 万 亿 大 小 的 数据 ， 还 有 许多 研究 


人 员 希 望 快速 地 写 出 脚本 来 测试 自己 的 理论 或 获得 更 深 的 理解 。 但 是 在 数据 工厂 中 ， 数 据 不 
是 以 一 种 友好 的 、 标 准 的 方式 呈现 的 ， 这 时 Pig 就 可 以 大 显 身手 了 ， 因 为 它 可 以 处 理 未 知 模式 
的 数据 ， 还 有 半 结 构 化 和 非 结 构 化 的 数据 。Pig 与 streaming 相 结合 ， 使 得 研究 者 在 小 规模 数 





据 集 上 测试 的 Per 








在 数据 仓库 处 理 阶 段 有 两 个 主要 的 应 























在 第 一 种 情况 下 ， 




















有 分 析 师 所 需 的 了 























: 商业 智 








团队 正 开 始 将 Hiv 





Pig Yahoo! 


[ 具 ，Hive 作 为 Hadoop 的 子 项 目 为 其 
e 与 BI 工 具 通 过 接口 (如 ODBC) 











得 到 了 广泛 应 用 ， 这 使 得 数据 工 























1 和 Python 脚本 可 以 很 方便 地 在 大 规模 数据 集 上 运行 。 


能 分 析 和 特定 查询 (Ad-hoc query) 。 


户 将 数据 连接 到 商业 智能 BD 工具 〈 如 MicroStrategy ) 上 来 产生 报告 
或 深入 地 分 析 。 第 二 种 情况 下 用 户 执行 数据 分 析 师 或 决策 者 的 特定 查询 。 这 两 种 情况 下 ， 
系 模型 和 SQL 都 很 好 用 。 事 实 上 ， 数 据 仓 库 已 经 成 为 SQL 使 用 的 核心 ， 它 支持 多 种 查询 并 

















并 六 

















提供 了 SQL 接 口 和 关系 模型 ， 现 在 Hive 








结合 起 来 使 




















的 数据 被 移植 到 Hadoop 上 运行 成 为 可 


能 。 随 着 Hive 的 深入 使 用 ，Yahoo! 打算 将 数据 仓库 移植 到 Hadoop 上 。 在 同一 系统 上 部 署 数 





理工 具 、 硬 件 等 成 为 可 





的 数据 处 理 。 





























据 工厂 和 数据 仓库 将 会 降低 数据 加 载 到 仓库 的 时 间 ， 这 也 使 得 共享 工厂 和 仓库 之 间 的 数据 、 
管 fés Yahoo! 在 Hadoop 上 同时 使 用 多 种 工具 使 Hadoop 能 够 执行 更 多 
































19.2 ”Hadoop 在 eBay 的 应 


eBay 是 全 球 知名 的 个 人 和 企业 销售 商品 和 提供 服务 的 在 线 交 易 平 台 ， 是 互联 网 上 最 受 欢 
迎 的 购物 网 站 之 一 。 在 eBay 上 存储 着 上 亿 种 商品 的 信息 ， 而 且 每 天 有 数 百 万 种 的 新 商品 增 
加 ， 因 此 需要 用 云 系统 来 存储 和 处 理 PB 级 别 的 数据 ， 而 Hadoop 是 个 很 好 的 选择 。 



























































Hadoop 是 建立 在 商业 硬件 上 的 容错 、 可 扩展 、 分 布 式 的 云 计算 框架 ，eBay 利 用 Hadoop 
建立 了 一 个 大 规模 的 集群 系统 一 Athena， 它 被 分 为 五 层 〈 如 图 19-1 所 示 ) ， 下 面 从 最 底层 向 
上 开始 介绍 : 
































1) 核心 层 ， 包 括 Hadoop 运 行 时 环境 、 一 些 通用 设施 和 HDFS， 其 中 文件 系统 为 读 写 大 块 
数据 而 做 了 一 些 优化 ， 如 将 块 的 大 小 由 128MB 改 为 256MB。 





2) MapReduce 层 ， 为 开发 和 执行 任务 提供 API 和 控件 。 





3) 数据 获取 层 ， 现 在 数据 获取 层 的 主要 框架 是 HBase、Pig 和 Hive: 


HBase 是 根据 Google BigTable 开 发 的 按 列 存储 的 多 维 空间 数据 库 ， 通 过 维护 数据 的 划分 
和 范围 提供 有 序 的 数据 ， 其 数据 储存 在 HDFS 上 。 


























图 19-1 Athena 的 层次 


Pig (Latin) 是 提供 加 载 、 第 选 、 转 换 、 提 取 、 聚 集 、 连 接 、 分 组 等 操作 的 面向 过 程 的 
语言 ， 开 发 者 使 用 Pig 建 立 数据 管道 和 数据 工厂 






































Hive 是 用 于 建立 数据 仓库 的 使 用 SQL 语法 的 声明 性 语言 。 对 于 开发 者 、 产 品 经 理 和 分 析 
师 来 说 ，SQL 接 口 使 得 Hive 成 为 很 好 的 选择 。 




















4) 工具 、 加 载 库 层 ，UC4 是 eBay 从 多 个 数据 源 自 动 加 载 数据 的 企业 级 调度 程序 。 加 载 
EA: 统计 库 〈(R) 、 机 器 学 习 库 〈Mahout) 、 数 学 相关 库 (Hama) 和 eBay 自己 开发 的 
于 解析 网 络 日 志 的 库 (Mobius)。 





















































5) 监视 和 警告 库 ，Ganglia 是 分 布 式 集群 的 监视 系统 ，Nagios 则 用 来 警告 一 些 关键 事 件 
如 服务 器 不 可 达 、 硬 盘 已 满 等 。 


eBay 的 企业 服务 器 运行 着 64 位 的 RedHat Linux: 
NameNode 是 负责 管理 HDFS 的 主 服 务 器 ; 


JobTracker 负 责任 务 的 协调 ; 





HBaseMaster 负 责 存储 HBase 存 储 的 根 信息 ， 并 且 方 便 与 数据 块 或 存 取 区 域 进行 协调 ; 





ZooKeeper 是 保证 HBase 一 致 性 的 分 布 式 锁 协 调 器 。 























于 存储 和 计算 的 节点 是 1U 大 小 的 运行 Cent OS 的 机 器 ， 每 个 机 器 拥有 两 个 四 核 处 理 器 


和 2TB 大 小 的 存储 空间 ， 每 38 一 42 个 节点 单元 为 一 个 rack， 这 组 建成 高 密度 网 格 。 有 关 网 络 
方面 ， 顶 层 rack 交 换 机 到 节点 的 带宽 为 1Gbps, rack 交 换 机 到 核心 交换 机 的 带宽 为 40Gpbs。 





















































这 个 集群 为 eBay 内 多 个 团队 共同 使 用 的 ， 包 括 产 品 和 一 次 性 任务 。 这 里 使 用 Hadoop 公 
平 调度 器 (Fair Scheduler) 来 管理 分 配 、 定 义 团队 的 任务 池 、 分 配 权 限 、 限 制 每 个 用 户 和 组 
的 并 行 任务 、 设 置 优先 权 期 限 和 延迟 调度 。 









































主要 用 于 ， 

















基于 机 器 学 习 的 排序 。 使 

















Hadoop 计 算 需 要 考虑 多 个 因 








数据 流 的 具体 处 理 过 程 如 图 19-2 所 示 ， 系 统 每 天 需要 处 理 8 一 10TB 的 新 数据 ， 而 Hadoop 


素 〈 如 价格 、 列 表格 式 、 卖 家 记 


录 、 相 关 性 ) 的 排序 函数 ， 并 需要 添加 新 因素 来 验证 假设 的 扩展 功能 ， 以 增强 eBay 物品 搜索 





的 相关 性 。 

















对 物品 描述 的 数据 挖掘 。 在 完全 无 人 





卜 管 的 方式 下 使 





数据 挖掘 和 机 器 学 习 技术 ， 将 物 


品 描述 清单 转化 为 与 物品 相关 的 键 / 值 对 ， 来 扩大 分 类 的 覆盖 范围 。 


aa 

















eBay 的 研究 人 员 在 系统 构建 和 使 


面 : 





可 扩展 性 ， 当 前 主 系 统 NameNode 
要 存储 大 量 的 元 数据 ， 所 以 内 存 占有 量 





图 19-2 


过 程 


-获得 的 信息 | 
{Sher 


数据 流 





搜索 索引 劝 4” 
D: a 
arias PA & 
Co iii 


算法 模型 


* OHH 


中 遇 到 的 挑战 以 及 一 些 初步 计划 有 以 下 几 个 方 











的 内 存量 ， 可 能 的 解决 方案 是 使 


联合 对 元 数据 进行 管理 。 








等 级 结构 





用 有 扩展 的 功能 ， 随 着 外 
岂 在 不 断 增长 。 如 果 是 1PB 的 存储 量 则 需要 将 近 1GB 





群 的 文件 系统 不 断 增长 ， 需 











的 命名 空间 划分 ， 或 者 使 











HBase 和 ZooKeeper 





AU 
择 ， 如 使 























PE: NameNode 的 有 效 性 对 产品 的 














作 负 载 很 重要 ， 开 源 社 区 提出 了 一 些 备用 选 




















检查 点 和 备份 节点 、 从 Secondary NameNode4 


bh 转移 到 Avatar 节 点 、 日 志 元 数据 复 


制 技术 等 。eBay 研 究 人 员 根据 这 些 方法 建立 了 自己 的 产品 集群 。 





数据 挖掘: 在 存储 非 结 构 化 数据 的 系统 上 建立 支持 数据 管理 、 数 据 挖掘 和 模式 管理 的 系 
统 。 新 的 计划 提议 将 Hive 的 元 数据 和 Owl 添 加 到 新 系统 中 ， 并 称 为 Howl。eBay 研 究 人 员 努 力 
将 这 个 系统 联系 到 分 析 平台 上 去 ， 这 样 用 户 可 以 很 容易 地 在 不 同 的 数据 系统 中 挖掘 数据 。 



































数据 移动 : eBay 研究 人 员 考 虑 发 布 数据 转 移 工具 ， 这 个 工具 可 以 支持 在 不 同 的 子 系统 如 
数据 仓库 和 HDFS 之 间 进 行 数据 的 复制 。 











策略 : 通过 配额 实现 较 好 的 归档 、 备 份 等 策略 〈Hadoop 现 有 版 本 的 配额 需要 改进 
eBay 的 研究 人 员 基 于 工作 负载 和 集群 的 特点 对 不 同 的 集群 确定 配额 。 























标准 : eBay 研究 人 员 开 发 健壮 的 工具 来 为 数据 来 源 、 消 耗 情况 、 预 算 情 况 、 使 用 情况 等 
进行 度量 。 



































同时 eBay 正在 改变 收集 、 转 换 、 使 用 数据 的 方式 ， 以 提供 更 好 的 商业 智能 。 





19.3 ”Hadoop 在 百度 的 应 


百度 作为 全 球 最 大 的 中 
































索 为 主 的 功能 性 搜索 ， 以 贴吧 为 主 的 社区 搜索 ， 针 对 区 域 、 行 业 的 于 
索 ， 以 及 百科 等 ， 几 乎 覆盖 了 中 文 网 络 世 界 中 所 有 的 搜索 需求 。 


百度 对 海量 数据 处 理 的 要 求 是 比较 高 的 ， 要 在 线 下 对 数据 进行 分 析 ， 还 要 在 规定 的 时 i 
到 平台 上 。 百 度 在 互联 网 领域 的 平台 需求 如 图 19-3 所 示 ， 这 些 需 求 需要 通过 





内 处 理 完 并 反馈 


性 能 较 好 的 云 














于 以 下 几 个 方面 : 


日 志 的 存 


网 页 数据 


i 


储 和 统计 ; 


分 析 和 挖掘 ; 





商业 分 析 


在 线 数据 

















PP 文 搜索 引擎 公司 ， 提 供 基 于 搜索 引擎 的 各 种 产品 ， 包 括 以 网 络 搜 
EE 直 搜 索 ，MP3 音 乐 搜 


a 














F 台 进行 处 理 了 并 实现 ，Hadoop 就 是 很 好 的 选择 。 在 百度 ，Hadoop 主 要 应 


如 用 户 的 行为 、 广 告 关注 度 等 ; 

















的 反馈 ， 及 时 得 到 在 线 广告 的 点 击 情况 ; 




















户 网 页 


MapReduce 


员 认 为 比较 好 
决 ， 一 些 计 算 
合 处 理 数据 很 
滤 ， 得 到 基本 
地 解决 问题 。 


百度 现在 


I 
使 
大 
的 

















户 的 推荐 度 及 用 户 之 间 的 关联 度 。 





























主要 是 一 种 思想 ， 并 不 能 解决 领域 内 与 计算 有 关 的 所 有 问题 ， 百 度 的 研究 人 
19-4 所 示 ，HDFS 实 现 共享 存储 ， 一 些 计算 使 用 MapReduce 解 


模型 应 该 如 图 

















MPI 解 决 ， 








且 适 合 划分 的 

















而 还 有 一 些 计算 需要 通过 两 者 来 共同 处 理 。 因 为 MapReduce 适 








数据 ， 所 以 在 处 理 这 类 数据 时 就 可 以 




















有 三 个 Hadoop 重 


句 量 和 矩阵 ， 然 后 通过 MPI 进 一 步 处 理 后 并 返回 结果 ， 











MapReduce 做 一 些 过 
只 有 整合 技术 才能 更 好 


上 群 ， 总 规模 在 700 台 机 器 左右 ， 其 中 有 100 多 台新 机 器 和 600 


多 台 要 淘汰 的 机 器 (它们 的 计算 能 力 相当 于 200 多 台新 机 器 ) ， 不 过 其 规模 还 在 不 断 地 扩大 





中 。 现 在 每 天 运行 的 MapReduce 任 务 大 约 在 3000 个 左右 ， 处 理 数据 约 120TB/ 天 。 


(aun) G) Cum) (Cam) 


分 布 式 存储 平台 


图 19-3 互联 网 领域 的 平台 需求 






数据 分 析 平 台 


Oom | 


图 19-4 计算 模型 











百度 为 了 更 好 地 用 Hadoop 进 行 数 据 处 理 ， 在 以 下 几 个 方面 做 了 改进 和 调整 ， 











(1) 调整 MapReduce 策 略 
限制 作业 处 于 运行 状态 的 任务 数 ; 
调整 预测 执行 策略 ， 控 制 预 测 执行 量 ， 一 些 任 务 不 需要 预测 执行 ; 


根据 节点 内 存 状 况 进 行 调度 ; 





平衡 中 间 结 果 输 出 ， 通 过 压缩 处 理 减少 I/O 负 担 。 





(2) 改进 HDFS 的 效率 和 功能 








权限 控制 ， 在 PB 级 数据 量 的 集群 上 数据 应 该 是 共享 的 ， 这 样 分 析 起 来 比较 容易 ， 但 是 需 
要 对 权限 进行 限制 ; 


























让 分 区 与 节点 独立 ， 这 样 ， 一 个 分 区 坏 掉 后 节点 上 的 其 他 分 区 还 可 以 正常 使 

















修改 DFSClient 选 取 块 副本 位 置 的 策略 ， 增 加 功能 使 DFSClient 选 取 块 时 跳 过 出 错 的 
DataNode; 


解决 VFS (Virtual File System) 的 POSIX (Portable Operating System Interface of Unix) 








容 性 问题 。 








(3) 修改 Speculative 的 执行 策略 

















采用 速率 倒数 普 代 速率 ， 防 止 数据 分 布 不 均 时 经 常 不 能 启动 预测 执行 情况 的 发 生 ， 增加 
任务 时 必须 达到 某 个 百分比 后 才能 启动 预测 执行 的 限制 ， 解 决 Reduce 运 行 等 待 Map 数 据 的 时 


间 问 题 ; 











只 有 一 个 Map 或 Reduce 时 ， 可 以 直接 启动 预测 执行 。 














(4) 对 资源 使 用 控制 














对 应 











改 Linux 内 核对 进程 使 








物理 内 存 的 控制 。 如 果 内 存 使 用 过 多 会 导致 操作 系统 跳 过 一 些 任务 ， 百 度 通 过 修 


























的 物理 内 存 进行 独立 的 限制 ， 超 过 阔 值 可 以 终止 进程 。 


分 组 调度 计算 资源 ， 实 现存 储 共享 、 计 算 独 立 ， 在 Hadoop 中 运行 的 进程 是 不 可 抢占 的 。 





在 大 块 文件 系统 中 ，X86 平 台 下 一 个 页 的 大 小 是 4K B。 如 果 页 较 小 ， 管 理 的 数据 就 


会 很 多 ， 会 增加 数据 操作 












































Hadoop 时 也 遇 到 了 一 些 问题 ， 主 要 有 : 


MapReduce 的 效率 问题 : 





代价 并 影响 计算 效率 ， 因 此 需要 提高 页 的 大 小 。 百 度 在 使 


比如 ， 如 何在 shuffle 效 率 方面 减少 WO 次 数 以 提高 并 行 效率 ， 如 








何在 排序 效率 方面 设置 排序 为 可 配置 的 ， 因 为 排序 过 程 会 浪费 很 多 的 计算 资源 ， 而 一 些 情况 


下 是 不 需要 


排序 的 。 














HDFS 的 效率 和 可 靠 性 问题 : 如 何 提高 随机 访问 效率 ， 以 及 数据 写 入 的 实时 性 问题 ， 如 


果 Hadoop 每 写 一 条 日 志 就 在 HDFS 上 储存 一 次 ， 效 率 会 很 低 。 








System 来 解决 ， 保 证 Hadoop 








存 使 
时 ， 可 以 调 
源 ， 同 时 还 

















整 垃圾 区 





的 问题 : Reducer 端 的 shuffle 会 频繁 地 使 

















存 ， 这 里 采 似 Linux 的 Buddy 





























最 小 的 开销 达到 最 高 的 乔 





























; 当 Java 进 程 内 容 使 用 内 存 较 多 











收 (GC) 策略 ， 有 时 存在 大 量 的 





存 复制 现象 ， 这 会 消耗 大 量 CPU 资 

















会 导致 








存 使 用 峰值 极 高 ， 这 时 需要 减少 内 存 的 复制 。 








作业 调度 的 问题 : 如 何 限制 任务 的 Map 和 ReduceF 





有 足够 的 计算 单元 ， 如 何 对 TaskTraclker 进 行 分 组 控制 ， 











在 用 户 提交 











性 能 提 
除 ， 这 会 占 




















任务 时 确定 执行 的 分 组 并 对 分 组 进行 认证 。 








『 算 单元 的 数量 ， 以 确保 重要 计算 可 以 
以 限制 作业 执行 的 机 器 ， 同 时 还 可 以 














升 的 问题 : UserLogs cleanup 在 每 次 Task 结 束 的 时 候 都 要 查看 一 下 日 志 决 定 是 否 清 
一 定 的 任务 资源 ， 可 以 通过 将 清理 线程 从 Java 子 进程 移 到 TaskTracker 来 解决 ; 


Java 子 进程 会 对 文本 行进 行 切割 而 Map 和 Reduce 进 程 则 会 重新 切割 ， 这 将 造成 重复 处 理 ， 这 
时 需要 关 掉 Java 进 程 的 切割 功能 ; 在 排序 的 时 候 也 可 以 实现 并 行 排序 提升 性 能 ;实现 对 数据 














的 异步 读 写 也 可 以 提升 性 能 。 


健壮 性 的 问题 : 需要 对 Mapper 和 Reducer 程 序 的 内 存 消耗 进行 限制 ， 这 就 要 修改 Linux 内 
核 ， 增 加 其 限制 进程 的 物理 内 存 的 功能 ， 也 可 以 通过 多 个 Map 程 序 共享 一 块 内存 ， 以 一 定 的 
代价 减少 对 物理 内 存 的 使 用 ， 还 可 以 将 DataNode 和 TaskTracker 的 UGI 配 置 为 普通 用 户 并 设置 
账号 密码 ， 或 者 让 DataNode 和 TaskTracker 分 账号 启动 ， 确 保 HDFS 数 据 的 安全 性 ， 防 止 
Tracker 操 作 DataNode 中 的 内 容 ， 在 不 能 保证 用 户 的 每 个 程序 都 很 健壮 的 情况 下 ， 有 时 需 
将 进程 终止 掉 ， 但 要 保证 父 进程 终止 后 子 进程 也 被 终止 。 



















































































Streaming 局 限 性 的 问题 : 比如 ， 只 能 处 理 文本 数据 ，Mapper 和 Reducer 按 照 文本 行 的 协 
议 通信 ， 无 法 对 二 进 制 的 数据 进行 简单 处 理 。 为 了 解决 这 个 问题 ， 百 度 新 写 了 一 个 类 
Bistreaming (Binary Streaming) ， 这 里 Java 子 进程 Mapper 和 Reducer 按 照 (KeyLen, Key, 
户 可 以 按照 这 个 协议 书写 程序 。 




















OF 


ValLen, Value) 的 方式 通 

















户 认证 的 问题 : 这 个 问题 的 解决 办 法 是 使 用 户 名 、 密 码 、 所 属 组 都 在 NameNode 和 
JobTracler 上 集中 维护 ， 用 户 连接 时 需要 提供 用 户 名 和 密码 ， 从 而 保证 数据 的 安全 性 。 百 / 
下 一 步 的 工作 重点 主要 涉及 以 下 内 容 : 










































































降低 NameNode 的 内 存 使 用 并 研究 VM 的 内 存 管理 ; 
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调度 方面 ， 改 进 任务 可 以 被 抢占 的 情况 ， 同 时 开发 出 自己 的 基于 Capacity 的 作业 调度 
器 ， 让 等 待 作业 队列 具有 优先 级 且 队 列 中 的 作业 可 以 设置 Capacity， 并 可 以 支持 TaskTracker 
分 组 ; 















































压缩 算法 ， 选 择 较 好 的 方法 提高 压缩 比 、 减 少 存储 容量 ， 同 时 选取 高 效率 的 算法 用 于 
shuffle 数 据 的 压缩 和 解压 ; 

















对 Mapper 程 序 和 Reducer 程 序 使 用 的 资源 进行 控制 ， 防 止 过 度 消耗 资源 导致 机 器 死机 。 
以 前 是 通过 修改 Linux 内 核 来 进行 控制 的 ， 现 在 考虑 通过 在 Linux 中 引入 Cgroup 来 对 Mapper 和 
Reducer 使 用 的 资源 进行 控制 ; 





























将 DataNode 的 并 发 数据 读 写 方式 由 多 线程 改 为 select 方 式 ， 来 支持 大 规模 并 发 读 写 和 
Hypertable 的 应 















































百度 同时 也 在 使 用 Hypertable， 它 是 以 Google 发 布 的 BigTable 为 基础 的 开源 分 布 式 数据 存 
储 系统 ， 百 度 将 它 作为 分 析 用 户 行为 的 平台 ， 同 时 在 元 数据 集中 化 、 内 存 占用 优化 、 集 群 
全 停机 、 故 障 自动 回复 等 方面 做 了 一 些 改进 。 


















































19.4 即刻 搜索 中 的 Hadoop 


19.4.1 即刻 搜索 简介 











即刻 搜索 是 由 运营 一 年 的 人 民 搜 索 改名 而 来 ， 它 秉承 “创新 、 公 正 、 权 威 " 的 理念 ， 致 力 
于 成 为 大 众 探索 求知 的 工具 、 工 作 生 活 的 助手 和 文化 交流 的 平台 。 相 对 于 网 络 上 百家争鸣 的 
搜索 引擎 ， 即 刻 搜 索 区 别 于 其 他 引擎 的 特点 是 ， 新 颖 的 索引 架构 ， 先 进 的 大 规模 并 行 处 理 系 
统 ， 大 规模 应 用 的 闪存 技术 和 干净 、 便 捷 的 网 络 搜索 环境 。 即 刻 搜索 在 开发 之 初 就 用 到 了 
Hadoop 和 并 行 处 理 的 思想 ， 下 面 介绍 即刻 搜索 中 的 Hadoop 应 




















































































































19.4.2 ”即刻 Hadoop 应 用 架构 














图 19-5 是 即刻 搜索 引擎 的 应 月 





即刻 搜索 框架 结构 比较 明了 。 
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网 络 








链接 库 : 这 是 一 个 保存 了 网 络 中 


接 进 行 网 页 的 息 取 。 


构图 。 




















而 我 们 对 框架 各 个 角色 


外 部 链接 的 初始 数据 库 ， 即 刻 搜索 根据 数据 库 中 


进行 介绍 。 











FP 的 链 


即刻 怜 虫 网络 爬 虫 是 搜索 引擎 中 必 不 可 少 的 部 分 ， 即 刻 疏 虫 根据 链接 库 的 内 容 ， 怜 取 
pb 的 页 面 资源 ， 形 成 SSTable 并 输入 HDFS 中 。SSTable 是 Google 在 BigTable 设 计 中 提 


出 的 


一 种 磁盘 文件 存储 结构 ， 全 称 是 Sorted String Table， 以 二 key, value> 对 方式 在 磁盘 上 存储 数 
据 ， 并 根据 key 的 值 进行 排序 ， 支 持 随 机 查找 ， 有 不 俗 的 读 写 性 和 


HDFS Bridge: 这 是 即刻 搜索 的 中 





bh 间 件 ， 为 网 络 候 虫 提供 写 缓存 服务 ， 


操作 。 有 具体 来 说 ， 通 过 HDFS_Bridge， 疏 虫 生成 的 SSTable 


写 入 HDFS _ Bridge， 然后 由 DEFS 直 
将 SSTable 数 据 的 磁盘 IO 转化 成 了 





HDFS: 即刻 搜索 中 保存 SSTa 


证 数据 的 安全 性 和 读 写 服务 的 可 靠 性 。 








MapReduce: 这 一 层 主要 应 用 


行 分 析 ， 包 括 PageRanki 计 算 、 








Bek i CES H 
内 存 写 ， 提 高 了 速度 。 


Hadoop4 








ble 的 分 布 式 文件 系统 ， 主 要 提供 海量 数据 








保证 疏 虫 快速 写 


文件 ， 首 先 以 内 存 写 的 速度 将 数据 





成 等 ， 主 要 提高 了 搜索 引擎 

















通过 并 行 框架 查找 相关 结果 并 返回 








online-service-cluster: 这 一 层 是 面向 用 户 的 ， 主 要 根据 








到 DFS 磁 盘 上 ， 这 样 通过 HDFS Bridge Ht 


的 存储 服务 ， 保 


的 MapReduce 并 行 编程 框架 来 对 爬虫 原始 数据 进 
链接 分 析 统 计 、 倒 排 索引 生 
分 析 步 又 的 速度 ， 实 现 了 并 行 化 处 理 。 


数据 





户 输入 的 查询 ， 分 析 关 键 词 ， 








图 19-5 即刻 搜索 架构 图 














这 里 再 重点 介绍 一 下 MapReduce 层 。 在 即刻 搜索 中 ， 各 种 基础 数据 上 的 操作 都 是 以 
C++ 语言 编写 、 经 过 Hadoop Pipes 的 封装 之 后 提交 给 Hadoop 执 行 的 ， 但 是 具体 使 用 中 即刻 搜 
索 也 从 代码 层 修改 了 Hadoop Pipes 的 协议 等 内 容 来 适应 自己 的 需求 。 在 具体 使 用 中 ， 即 刻 搜 
索 首先 定义 了 MapReduce 框 架 中 的 Mapper 封 装 器 和 Reducer 封 装 器 ， 以 Mapper 封 装 器 为 例 ， 

其 核心 代码 如 下 : 



























































FE | 
Wrapperclass BasicMapper{ 
public: 
typedef: mapreduce: TaskContextTaskContext; 
explicit BasicMapper () { 
map_context_.reset (new MapContext () ) ; 
} 
virtual~BasicMapper () {} 


// 初 始 化 操作 


virtual void OnCreate (TaskContext*context) {} 
// 定 义 Map 阶 段 

virtual void OnFirstMap (MapContext*context) {} 
virtual void OnLastMap (MapContext*context) {} 
virtual void Map (MapContext*context) =0; 
protected: 

// 获 取 输 入 value 

const std: string&GetInputValue O { 

return map_context_->GetInputValue () ; 


} 

// 获 取 输 入 key 

const std: string&GetInputkey () { 
return map_context_->GetInputKey © ; 


} 

// 反 序列 化 

template<typenameT> 

boolValueToThrift (T*object) { 

return map_context_->ValueToThrift (object) ; 


DISALLOW_COPY_AND_ASSIGN (BasicMapper) ; 
} 











利用 这 些 封装 器 作为 基 类 ， 编 写 自 己 的 MapReduce 框 架 代 码 就 非常 方便 。 下 面 就 是 一 个 
简单 的 例子 : 














ee | 
class SampleMap: public BasicMapper{//Mapper 
public: 
virtual~SampleMap () {} 
virtual void Map (mapreduce: MapContext*context) 
{ 
string key=GetInputKey ©; 
string value=GetInputValue () ; 
Object obj_val; 
ValueToThrift (&obj_val); // 反 序列 化 
context->Emit (key, newvalue) ; // 输 出 
} 
}s 
class SampleRed: public BasicReducer { 
public: 
virtual void Reduce (mapreduce: MapContext*context) { 
string key=GetInputKey O ; 


while (NextValue () ) { 
string value=GetInputValue () ; 


context->Emit (key, newvalue) ; // 输 出 
} 
}; 


一 


可 以 看 出 : 上 面 的 代码 同 




















Java 语 言 编写 的 代码 非常 类 似 。 除 了 上 面 的 主体 Mapper 和 
Reducer 代 码 之 外 ， 再 定义 好 其 他 作业 信息 就 可 以 提交 给 Hadoop Pipes 来 运行 了 。 























19.4.3 ”即刻 Hadoop 应 用 分 析 





前 面 简 单 介 绍 了 即刻 搜索 的 框架 和 在 即刻 搜索 中 如 何 开 发 自己 的 MapReduce 程 序 。 可 以 
看 出 ， 即 刻 搜索 在 应 用 Hadoop 时 直接 应 用 了 Hadoop 系 统 ， 在 搜索 引擎 的 数据 存储 模块 直接 
使 用 Hadoop 的 数据 存储 服务 ， 在 任务 执行 和 处 理 模块 时 直接 使 用 MapReduce 并 行 框 架 。 虽 然 
是 直接 使 用 ， 但 是 并 不 简单 。 作 为 独立 的 系统 ，Hadoop 在 应 用 到 某 个 系统 中 时 ， 需 要 将 
Hadoop 各 个 模块 根据 自己 系统 的 实际 需求 进行 封装 。 在 分 布 式 存储 模块 ， 根 据 海量 数据 存储 
的 需求 ， 即 刻 搜索 在 HDFS 的 输入 上 由 HDFS_Bridge 进 行 封 装 。 通 过 此 封装 。HDFS 能 为 即刻 
搜索 的 网 络 仆 虫 提供 写 缓存 ， 保 证 其 海量 数据 的 写 入 速度 。 在 MapReduce 框 架 模 块 ， 即 刻 搜 
索 根 据 并 行 任务 执行 的 需求 ， 对 MapReduce 中 的 Mapper 和 Reducer 进 行 了 封装 ， 简 化 了 程序 
员 代 码 书写 难度 。 









































































































































总 体 来 说 ， 即 刻 搜索 在 系统 中 根据 自己 的 需求 ， 封 装 了 Hadoop 中 分 布 式 文件 系统 和 
MapReduce 并 行 框架 的 对 外 接口 ， 提 高 了 系统 的 处 理 效率 和 存储 性 能 。 











19.5 Facebook 中 的 Hadoop 和 HBase 





众所周知 ，Facebook 是 目前 世界 上 最 大 的 社交 网 站 。 从 2004 年 创建 之 初 的 以 服务 学 生 为 
目的 的 局 部 交互 网 站 发 展 到 2009 年 世界 范围 内 的 综合 社交 网 站 ， 服 务 8 亿 多 人 群 ， 而 现在 它 
已 经 剑 指 移动 服务 、 搜 索 服务 、 网 络 直播 等 综合 网 络 服务 提供 领域 ， 旨 在 发 展 成 为 综合 性 网 
络 服务 商 。 






































Facebook 作 为 全 球 性 社交 网 站 ， 拥 有 约 8 亿 活 跃 用 户 ， 其 每 天 产生 的 数据 非常 庞大 。 下 面 
简单 列举 一 些 统计 数据 (截至 2011 年 9 月 〉: 





























把 Facebook 用 户 群 作为 一 个 国家 ， 它 会 成 为 世界 人 口 第 三 大 国家 ; 
































Facebook 用 户 在 网 站 上 已 上 传 了 1400 亿 余 张 照片 ; 





每 天 上 网 的 人 中 有 44% 访 问 了 Facebook， 它 是 继 Google 之 后 访问 率 第 二 高 的 网 站 ; 














Facebook 用 户 每 20 分 钟 发 表 1200 万 条 评论 ， 每 个 月 分 享 300 亿 条 内 容 ; 














上 面 这 些 统计 数据 背后 都 意味 着 Facebook 面 临 着 海量 的 数据 存储 。 用 户 群 的 资料 需要 维 
护 ， 用 户 分 享 的 照片 、 发 表 的 评论 、 分 享 的 内 容 都 需要 存储 ， 用 户 访问 历史 需要 进行 分 析 处 
理 ， 同 时 还 需要 对 原始 数据 进行 提取 、 反 馈 给 用 户 等 。 这 些 虽 然 并 不 简单 ， 但 在 巨大 用 户 群 
和 使 用 率 面前 ， 都 将 成 为 典型 的 海量 数据 存储 和 处 理 任务 。 那 么 Facebook 到 底面 临 哪些 海量 
数据 的 任务 ? 它 为 什么 使 用 Hadoop+HBase? 它 是 否 有 所 创新 或 者 改进 ? 下 面 将 一 一 解答 这 


些 问题。 


























































































































19.5.1 _ Facebook 中 的 任务 特点 
































Facebook 的 巨大 用 户 群 和 使 用 率 为 其 带 来 了 高 效 存 储 海量 数据 的 挑战 。 下 面 我 们 从 
Facebook 中 一 些 关 键 性 技术 的 任务 特点 出 发 ， 介 绍 Facebook 在 存储 海量 数据 时 必须 满足 的 一 














1.Facebook 消 息 机 制 


Facebook 的 消息 机 制 为 每 一 个 
户 或 组 之 间 


的 基础 ， 


为 超过 5 亿 
之 外 ， 新 的 线程 
某 一 个 数据 中 心 。 


这 个 机 制 的 


的 邮 


ih 




















异型 





RA 


PF, SMS (Short Message Service) 以 及 
要 管理 “消息 从 哪 位 
户 提 供 服 务 ， 还 需要 达到 PB 级 数 









































户 发 往 哪 位 





pr, 
RHENE DA 





户 提供 一 个 “facebookcom” 
聊天 记录 
该 新 型 应 
及 长 时 











的 邮箱 地 址 ， 它 负责 整合 
。 该 机 制 是 Facebook 收 件 
程序 不 但 需要 能 够 适应 同 
间 不 间断 运行 的 需求 。 除 
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样 需要 系统 能 够 存储 每 一 个 参与 











户 的 消息 。 每 一 个 用 户 需要 依附 











容 决 定 了 它 每 天 需要 处 理 数 十 亿 的 


这 些 消息 的 特点 又 决定 了 该 机 制 有 如 下 特点 : 


1) 


2) 数据 的 增 量 存储 : 从 该 机 制 的 4 





KF 
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即时 消息 及 数 百 万 的 系统 消息 ， 而 
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mE 


于 每 时 每 刻 都 有 成 千 上 万 消息 产 








:， 那 么 每 天 数据 的 插入 量 将 会 非 











F 且 会 持续 性 地 








HK. 


竺 性 不 难 发 现 ， 消 息 机制 一 般 很 少 涉及 





HIRERE, BR 
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条 消息 记录 ， 


户 显 式 地 发 出 该 请 求 。 
一 般 只 会 在 近期 被 读 有 了 
数据 不 会 再 次 被 读 到 ， 但 是 





个 








t 外 ， 每 一 个 用 户 的 收 件 箱 


























于 存在 用 户 访问 的 可 能 性 ， 























处 于 可 

















存储 该 


3) 


Faceboo 





状态 。 在 据 图 存储 这 一 类 的 数据 ，Facebool 
户 的 线程 和 消息 记录 。 
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数据 迁移 : 














于 消息 机 制 进 行 更 新 ， 采 用 新 




















需要 将 数据 从 
随机 访问 以 及 快速 大 数据 块 导入 操作 的 系统 将 会 大 大 减少 











原 数 据 库 中 进行 分 离 并 迁移 到 新 的 





将 可 能 无 限量 地 增长 。 
民 的 次 数 ， 从 长 远 来 讲 很 少 再 次 查看 。 


另外 ， 对 于 每 
此 ， 大 部 分 的 
Facebook 需 要 保证 这 部 分 数据 一 直 
户 为 主键 来 建立 索引 ， 在 索引 之 下 








Kl 








的 系统 以 及 数据 模型 ， 这 就 意味 着 








El 





数据 库 中 。 那 么 支持 大 范围 扫描 、 


户 数 据 迁移 的 时 间 。 























2.Facebook Insights 


FacebookInsights 为 开发 者 以 及 网 站 管理 员 提 供 了 关于 Facebook 站 点 之 间 活 动 实时 分 析 的 


接口 ， 包 括 社 会 网 络 插件 、Facebook 页 面 以 及 Facebook/” 告 。 通 过 这 些 


匿名 化 的 数据 ， 一 些 














商业 用 户 可 以 对 Facebook 的 情况 有 深入 的 了 解 ， 例 如 印象 Cimpression) 、 点 击 率 、 网 页 访问 
次 数 等 。 通 过 这 些 信 息 ， 商 业 用 户 可 以 对 自己 的 服务 进行 改进 。 












































从 这 个 技术 的 服务 内 容 来 看 ，Facebook Insights 团 队 想 要 为 用 户 提供 短 时 间 内 用 户 活 动 的 
统计 信息 ， 也 就 是 在 海量 统计 信息 上 的 实时 数据 分 析 。 这 将 需要 Facebook 能 够 提供 大 规模 
的 、 异 步 排队 的 系统 ， 并 使 用 系统 对 事件 进行 处 理 、 存 储 和 聚合 操作 。 该 系统 应 具备 较 高 的 
容错 性 ， 且 支持 每 秒 成 和 上 万 个 事件 的 并 发 操作 。 
























































3.Facebook 度 量 系统 











在 Facebook 中 ， 系 统 中 的 所 有 软 硬 件 需 要 将 自身 的 统计 信息 存储 到 ODS (Operations 
Data Store) 中 。 例 如 ， 记 录 某 一 个 服务 器 或 某 一 组 服务 器 中 的 CPU 使 用 率 ; 或者， 存储 对 数 
据 集群 的 写 操作 记录 。 这 些 操作 将 对 写 吞 吐 量 有 很 高 的 要 求 。 这 要 求 系统 应 具备 如 下 特点 : 









































1) 自动 分 区 : 大 量 的 索引 以 及 时 序 写 操作 再 加 上 不 可 预知 的 数据 量 的 增长 ， 这 使 得 采 
sharding 模 式 的 My SQL 数据 库 难以 应 付 ， 甚 至 需要 管理 人 员 人 为 地 对 数据 进行 分 片 。 























2) 快速 读 取 最 近 数 据 并 执行 表 扫描 : 在 Facebook 很 多 的 操作 仅仅 涉及 最 近 的 数据 ， 对 较 
早 的 数据 访问 较 少 ， 但 是 之 前 的 数据 也 同样 不 能 丢失 ， 必 须 保 证 其 处 于 可 用 状态 。 例 如 邮件 
服务 、 消 息 服务 等 。 同 时 ， 这 些 操作 还 要 求 对 最 近 的 数据 具有 较 快 的 查询 速度 。 
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技术 特点 的 介绍 和 社交 网 络 网 站 共有 的 一 些 特点 ，Facebook 中 任务 特点 对 存储 
系统 的 需求 可 以 总 结 为 如 下 几 个 方面 : 








(1) 灵活 性 


























于 用 户 的 增加 以 及 市 场 的 拓展 ，Facebook 要 求 存 储 系统 能 够 支持 对 系统 容量 的 增 量 扩 
充 ， 并 且 要 求 该 操作 所 带 来 的 额外 开销 要 最 小 化 ， 同 时 应 避免 该 操作 所 带 来 的 停机 问题 。 例 
如 ， 在 某 些 情况 下 ，Facebook 可 能 需要 能 够 快速 地 增加 系统 的 容量 ， 并 且 要 求 系统 能 够 自动 
地 处 理 新 旧 硬件 之 间 的 负载 均衡 和 利用 率 的 问题 。 












































(2) AWSE 























程序 需要 存储 大 量 的 数据 ， 而 对 读 的 需求 相对 要 低 。 因 此 ， 





在 Facebook 中 有 很 多 的 应 
Facebook 对 写 操作 有 较 高 的 要 求 。 





(3) 高 效 低 延 迟 的 强 一 致 性 数据 中 心 








在 Facebook 中 有 很 多 非常 重要 的 应 用 程序 〈 如 消息 ) ， 它 们 对 数据 的 一 致 性 有 很 高 的 要 
求 。 例 如 ， 在 用 户主 页 上 显示 的 “未 读 "消息 数目 需要 与 收 件 箱 中 实际 的 “未 读 " 消 息 总 数 一 
致 ， 然 而 实现 一 个 全 球 化 的 分 布 式 强 一 致 性 存储 系统 确实 不 可 能 ， 只 有 当 数 据 位 于 同一 个 数 
据 中 心 之 内 ， 提 供 强 一 致 性 的 数据 存储 才 变 得 稍 有 可 能 。 


















































(4) 高 效 的 磁盘 随机 读 





























尽管 应 用 程序 级 别 的 缓存 〈 嵌 入 式 或 见解 缓存 ) 得 到 了 广泛 的 应 用 和 发 展 ， 在 
的 数据 ， 而 必须 访问 后 端的 数据 库 系 统 。 














Facebook， 仍 然 有 很 多 的 访问 不 能 命中 缓存 














(5) 高 可 用 性 











户 提供 一 种 能 够 长 时 间 不 间断 的 服务 ， 这 些 服务 应 该 能 够 处 理 计划 内 








Facebook 需 要 为 
的 和 计划 外 的 事件 (例如 软件 更 新 、 硬 件 或 容量 扩充 以 及 硬件 故障 ) 。 此 外 ，Facebook 还 需 


要 能 够 容忍 数据 中 心 少量 数据 的 丢失 以 及 在 某 一 可 允许 的 时 间 范 围 内 向 其 他 数据 中 心 进行 数 



































据 备 份 。 


(6) 容错 性 





ph 对 于 长 时 间 的 My SQL 数 据 库 的 运 维 经 验 显 示 故 障 隔 离 是 非常 重要 的 。 如 果菜 
Ph 要 求 只 有 很 少 一 部 分 用 户 会 受到 该 事件 的 影响 。 


Facebookd 


一 个 数据 库 发 生 故 障 ， 那 么 在 Facebookd 





























(7) 原子 “ 读 -修改 - 写 " 原 语 




















， 同 时 也 是 底层 存 























原子 的 增 量 以 及 比较 和 交换 API 在 创建 无 锁 并 发 应 用 程序 中 非常 有 


储 系统 必须 支持 的 操作 。 








(8) 范围 扫描 






































某 些 应 用 程序 需要 支持 某 一 范围 内 某 些 列 集合 的 高 效 检索 。 例 如 ， 检 索 某 一 用 户 最 近 的 
100 条 消息 记录 或 者 计算 某 一 给 定 广告 商 在 过 去 24 小 时 内 每 小 时 的 印象 Cimpression) 数 。 


























同样 Facebook 中 的 任务 也 决定 了 它 可 以 不 强制 要 求 下 面 几 点 : 


1) 单个 数据 中 心 内 的 网 络 分 区 容错 性 。 不 同 的 系统 组 件 往往 本 身 就 是 非常 集中 化 的 。 
例如 ，My SQL 服务 器 很 可 能 会 集中 地 被 放置 在 几 个 机 架 之 内 。 单 个 数据 中 心 内 的 网 络 分 区 故 
障 将 可 能 导致 整个 服务 能 力 上 的 故障 。 因 此 ， 需 要 通过 设置 元 余 网 络 来 避免 单个 分 区 故障 引 
起 的 系统 不 可 
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2) 零 故 障 率 。 从 经 验 来 看 ， 大 集群 中 机 器 故障 是 不 可 避免 的 。 既 然 不 存在 这 样 的 理想 
情况 ， 那 么 必须 对 设计 方案 进行 某 种 ， 也 就 是 说 ，Facebook 选 择 面 对 故 障 的 机 器 并 尽 可 能 地 
降低 宕 机 的 概率 。 




















3) 跨 数据 中 心 的 active-active 服 务 能 力 。 如 前 所 述 ，Facebook 假 设 用 户 的 数据 被 存储 在 
不 同 数据 中 心 。 因 此 ，Facebook 使 用 用 户 端的 缓存 来 降低 系统 的 延迟 。 















































19.5.2 MySQL VS Hadoop+HBase 


面 对 Facebook 中 任务 对 存储 系统 的 要 求 ，Facebook 如 何 选择 呢 ? 





1.MySQL 














My SQL 是 比较 流行 的 一 款 开源 数据 库 ， 它 轻巧 简便 。Facebook 在 最 初 使 
My SQL+Memcached 构 建 存 储 层 ，My SQL 集 群 数据 库 作 为 底层 存储 ，Memcached 构 建 数 据 
缓存 层 。 这 样 既 发 挥 了 My SQL 存储 系统 较 高 的 随机 读 效 率 及 其 简单 好 用 等 特点 ， 又 通过 
Memcached 缓 存 层 在 高 访问 量 下 提高 了 系统 的 访问 效率 。 















































但 是 Facebook 在 发 展 过 程 中 逐渐 发 现 ，My SQL 在 数据 量 剧 增 和 新 应 用 上 线 提供 服务 情况 
下 并 不 能 像 之 前 那样 完美 地 工作 。 主 要 是 MySQL 集 群 有 以 下 问题 : 随机 写 操作 效率 低 、 可 扩 
展 性 差 、 管 理 成 本 和 硬件 成 本 高 、 负 载 均衡 并 不 理想 等 。 而 这 些 缺 点 恰巧 正 是 Facebook 中 海 
量 数据 所 带 来 的 系统 需求 。 所 以 目前 Facebook 已 经 放弃 My SQL+Memcached 构 建 的 存储 层 ， 
而 转向 了 Hadoop+HBase 。 












































2.Hadoop+HBase 





Facebook 在 发 展 过 程 中 发 现 My SQL 构建 的 存储 层 并 不 能 完全 满足 系统 的 需求 后 ， 就 开始 
审视 到 底 什 么 样 架 构 的 存储 层 能 够 最 大 程度 上 满足 Facebook 的 需求 。 











经 过 大 量 地 研究 和 实验 之 后 ，Facebook 最 终 选 择 使 用 Hadoop 和 HBase 来 作为 下 一 代 底 层 
存储 系统 。 这 主要 是 基于 : 











1) HBase 的 特点 满足 Facebook 对 存储 系统 的 需求 。HBase 基 于 列 存储 分 布 式 的 开源 数据 
库 能 满足 系统 海量 数据 存储 的 需求 和 高 扩展 性 的 需求 ， 同 时 HBase 能 够 保证 高 吞吐 的 写 操 
作 。 它 是 一 个 能 够 实现 快速 随机 和 流 读 取 操 作 的 分 布 式 存储 系统 。 虽 然 不 支持 传统 的 跨行 事 
务 ， 但 HBase 面 向 列 的 存储 模型 在 数据 存储 上 提供 了 很 高 的 灵活 性 并 且 支 持 表 内 的 复杂 索 
引 。 同 时 HBase 对 于 写 密集 的 事务 是 一 个 理想 的 选择 ， 它 能 够 维护 大 量 的 数据 ， 支 持 复杂 索 

















引 ， 具 有 灵活 的 伸缩 性 ， 它 还 能 提供 行 级 别 的 原子 性 保证 。 











2) Facebook 有 信心 解决 HBase 在 现实 使 用 中 存在 的 问题 。HBase 现 在 已 经 能 够 提供 高 一 
致 性 、 高 写 春 吐 率 的 键 值 存 储 。 现 有 的 HDFS NameNode 作 为 管理 的 中 心 可 能 成 为 系统 的 瓶 





























颈 。Facebook 的 HDFS 团 队 决 定 构建 一 个 高 可 用 的 NameNode 在 Facebook 中 称 为 
AvatarNode) ， 这 对 于 数据 仓库 操作 也 将 非常 有 用 。 这 样 好 的 磁盘 读 效率 就 可 以 满足 (向 
HBase 的 LSM 树 中 添加 Bloom filter， 使 本 地 DataNode 能 够 高 效 地 执行 读 操作 并 且 组 存 



































NameNode 的 metadata ) 。 在 系统 故障 和 容错 方面 ，HDFS 能 够 在 磁盘 子 系统 中 容忍 和 隔离 故 
障 。 整 个 HBase/HDFS 集 群 的 故障 是 系统 容错 的 一 部 分 ， 可 以 考虑 将 数据 迁移 到 较 小 的 HBase 
集群 中 。HBase 社 区 中 对 “复制 "这 块 内 容 提供 的 是 一 个 预定 义 的 路 径 ， 用 来 解决 灾难 性 的 故 


















































所 以 整体 来 说 ， 采 用 Hadoop+HBase 的 存储 架构 ， 并 通过 Facebook 根 据 自 己 需求 进行 局 
部 的 优化 和 改进 之 后 ， 这 样 的 存储 架构 能 够 满足 系统 绝 大 部 分 需求 ， 提 供 稳定 、 高 效 、 安 全 
的 存储 服务 。 





19.5.3 Hadoop 和 HBase 的 实现 











前 面 介绍 了 Facebook 中 存储 架构 的 设计 需求 和 它 为 什么 采用 Hadoop 和 HBase 来 实现 存储 
架构 。 这 部 分 我 们 将 为 大 家 介绍 Facebook 如 何 实现 对 Hadoop 和 HBase 的 应 用 及 进行 哪些 优 


化 。 























1. 实 时 HDFS 














HDFS 作 为 Hadoop 的 分 布 式 文件 存储 系统 ， 用 来 支持 MapReduce 应 用 程序 的 操作 。 该 文 


件 系统 具有 可 

















扩展 性 以 及 较 好 的 流 数据 处 理 功 能 ， 并 且 具 有 较 强 的 容错 能 力 。Facebook 通 过 





对 HDFS 的 修改 和 调整 ， 使 HDFS 具 有 支持 实时 操作 和 在 线 服 务 的 特性 。 














(1) 高 可 用 性 -AvatarNode 








在 HDFS 中 ， 仅 有 一 个 唯一 的 Master， 即 NameNode。 在 这 种 架构 下 ， 当 NameNode 停 止 
服务 后 系统 将 处 于 不 可 用 状态 。 对 于 需要 7x24 小 时 服务 的 软件 或 系统 来 说 ， 肯 定 和 希望 能 够 获 


得 更 稳定 的 服 




















务 ， 因 此 这 样 的 架构 可 能 并 不 是 十 分 理想 。 所 以 Facebook 根 据 自己 的 需求 对 原 








来 的 NameNode 进 行 了 一 部 分 扩展 ， 称 为 AvatarNode， 来 保证 其 可 用 性 。 











AvatarNode 








在 原生 Hadoop 的 启动 阶段 ，HDFS 的 NameNode 首 先 从 fsimage 文 件 中 读 取 文件 系统 的 





metadata 信 息 。 这 个 metadata 信 息 存储 了 HDFS 中 每 一 个 文件 的 名 称 、 目 录 以 及 meta 信 息 。 然 


而 ，NameNode 并 不 是 永久 地 存储 每 一 个 块 的 位 置 。 因 此 ， 当 发 生 故障 后 ，NameNode 的 重 














新 启动 将 包含 了 两 个 阶段 :第 一 阶段 是 读 取 文件 系统 镜像 ， 导 入 事务 日 志 ， 将 新 的 文件 系统 
镜像 存储 回 磁盘 ， 第 二 阶段 是 DataNode 通 过 对 块 的 处 理 向 NameNode 报 告 未 知 块 的 存储 位 置 
信息 。Facebook 中 最 大 的 HDFS 集 群 存储 了 大 约 一 亿 五 二 万 的 文件 ， 这 两 个 阶段 的 操作 将 需要 


大 约 45 分 钟 的 








讨 间 。 

















如 果 在 原生 Hadoop 的 基础 上 采用 备份 节点 的 话 ， 那 么 在 发 生 故 障 时 可 以 避免 从 磁盘 中 读 














取 镜 像 文 件 ， 但 是 仍然 需要 从 所 有 的 DataNode 中 收集 块 的 信息 ， 这 需要 20 分 钟 左右 的 时 间 。 
另 一 个 问题 是 ， 当 采用 备份 节点 的 时 候 ，NameNode 需 要 同步 地 更 新 备份 节点 所 存储 的 数 

据 ， 这 样 系统 的 可 靠 性 一致 性 ) 将 低 于 单个 NameNode 节 点 的 可 靠 性 。 因 此 ，AvatarNode 
应 运 而 生 。 









































如 图 19-6 所 示 ， 一 个 HDFS 集 群 包含 两 个 AvatarNode: 主 AvatarNode 和 备 
AvatarNode《〈 同 一 时 间 只 有 一 个 Node 处 于 活跃 状态 ) 。 主 AvatarNode 实 际 上 等 同 于 HDFS 的 
NameNode， 不 同 的 是 HDFS 集 群 将 文件 系统 的 镜像 和 事务 日 志 的 备份 存储 在 NFS 中 。 每 当主 
AvatarNode 更 新 了 存储 在 NFS 文 件 系统 中 的 日 志 之 后 ， 备 用 AvatarNode 节 点 同时 读 取 该 更 
新 ， 然 后 将 更 新 的 事务 应 用 在 自己 的 文件 系统 镜像 以 及 日 志 上 。 备 用 AvatarNode 节 点 负责 生 
成 主 AvatarNode 的 checlkepoint， 需 要 定期 合并 事务 日 志 并 创建 fimage。 因 此 ， 在 该 系统 中 将 
不 再 设置 Secondary NameNode. 
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图 19-6 AvatarNode 

















在 集群 中 ，DataNode 不 仅仅 与 主 AvatarNode 进 行 通信 ， 同 时 还 与 备用 AvatarNode 进 行 通 
信 发 送 心 跳 、 块 报告 和 块 分 配 信 息 ) ， 这 样 当 发 生 故障 时 ， 备 用 AvatarNode 可 以 马上 变 为 
主动 AvatarNode， 之 后 启动 的 原 AvatarNode 将 成 为 新 的 备用 AvatarNode。 集 群 中 的 Avatar 
DataNode 也 同时 与 两 个 AvatarNode 进 行 通信 ， 他 们 通过 与 ZooKeeper 的 整合 来 识别 哪 一 个 
AvatarNode 是 当前 的 主 AvatarNode。 此 外 ，Avatar 的 DataNode 仅 仅 处 理 来 自主 AvatarNode 的 
备份 /删除 等 命令 。 

































































对 HDFS 日 志文 件 的 改进 








当 块 文件 被 关闭 或 者 被 同步 / 写 出 的 时 候 ，HDFS 会 将 块 对 应 的 ID 存储 到 事务 日 志 中 。 由 


于 想 尽量 减少 故障 恢复 的 时 间 ， 习 


另外 ， 当 备份 AvatarNode 从 习 





HE 
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到 日 志 中 。 

















日 志文 件 ) ， 那 么 备份 AvatarNode 将 有 可 能 只 读 取 到 部 分 的 
系统 故障 ) 。 为 了 避免 这 种 情况 的 发 生 ，Facebook 修 改 了 寻 
该 事务 的 长 度 ， 事 务 的 ID 以 及 事务 的 校 验 和 。 











分 布 式 Avatar 文件 系统 (DAF 


Facebook 将 修改 后 





S) 








DAFS) ， 它 是 一 个 部 署 在 客户 端 
问 。DAFS 与 ZooKeeper 


AvatarNode 节 点 的 物理 


整合 在 一 起 。 
也 址 ， 当 客户 端 尝试 与 HDFS 集 


的 





分 层 文件 系统 ， 


ZooKeeper 在 某 一 ZNode | 








的 时 候 ，DAFS 将 查看 ZooKeeperd 





保存 了 实际 主 AvatarNode 物 







































































8 么 备份 AvatarNode 需 要 知晓 每 一 个 块 的 位 置 。 
Facebook 选 择 同时 将 块 分 配 操作 写 入 














P 读 取 日 志 的 时 候 〈 此 时 ， 主 AvatarNode 正 在 写 该 
事务 〈 非 完整 的 ， 将 有 可 能 导致 
有 务 日 志 的 格式 ， 使 其 包含 了 写 入 


的 HDFS 命 名 为 分 布 式 Avatar 文件 系统 (Distributed Avatar File System, 
能 够 提供 一 个 对 HDFS 的 跨 故 障 透明 访 
上 保存 了 某 一 集群 主 
EAE Child, dfs.cluster.com) i 


进行 连接 


理 路 径 的 ZNode， 然 后 将 之 后 



























































到 来 的 连接 重 定位 到 该 主 AvatarNode 上 。 如 果 由 于 网 络 环境 问题 使 路 径 不 可 达 ， 那 么 DAFS 
将 从 ZooKeeper 中 进行 重新 检索 。 如 果 在 刺激 前 发 生 故 障 恢复 事件 ，DAFS 将 一 直 阻塞 ， 直 到 
恢复 完成 。 DAFS 对 于 访问 HDFS 的 应 用 程序 来 说 是 完全 透明 的 ， 即 这 些 应 用 程序 不 知道 有 
DAFS 的 存在 。 

(2) Hadoop RPC 兼 容 性 问题 

在 Facebook 中 需要 为 消息 应 用 程序 运行 不 同 的 Hadoop 集 群 。 因 此 ， 就 需要 系统 能 够 一 次 
性 地 在 不 同 的 集群 中 部 署 新 版 的 软件 。 这 就 需要 Hadoop 的 客户 端 能 够 与 运行 不 同 版 本 
Hadoop 软 件 的 服务 器 进行 交互 操作 。Facebook 对 Hadoop 的 RPC 软 件 进行 修改 使 其 能 够 自动 地 
识别 所 处 服务 器 的 软件 版 本 ， 然 后 选择 合适 的 协议 与 之 通信 。 





G) 块 放置 策略 


默认 的 HDFS 放 置 策略 对 块 的 放置 位 置 有 很 少 的 限制 ， 对 于 非 本 地 的 副本 ， 块 一 般 随 机 


存放 在 任意 机 架 的 


任意 节点 





Ph。 为 了 降低 多 个 节点 


同时 宕 机 时 数据 丢失 的 概率 ，Facebook 设 








计 了 一 个 可 插 拔 式 
验 ，DAFS 使 数据 丢失 概率 


(4) 实时 作业 性 能 提升 


HDFS 是 一 个 高 吞吐 量 





蕊 放置 策略 。 它 将 块 副本 放置 在 较 小 的 且 可 配置 的 一 组 节点 


泽 低 了 100 倍 。 


的 系统 ， 然 而 对 于 响应 时 





时 ， 它 更 倾向 于 “ 


B 











ap 


SE 


HA, 





间 却 并 不 十 分 理想 。 例 如 ， 当 应 对 故障 





下 试 "或 “等 到 "， 而 不 是 对 错误 进行 处 理 。 











RPC 超 时 : Hadoop 使 


TCP 连 接 来 发 送 RPC 调 





时 ，Facebook 并 不 是 马上 将 连接 断 开 ， 而 是 首先 向 
效 ， 那 么 客户 端 将 等 待 服务 器 的 响应 而 不 断 开 连 接 。 
f 重 连 要 么 导致 失败 要 么 给 服务 器 增 力 








KIRA BH 


然而 一 直 等 待 服务 器 的 响应 将 陷入 另 一 个 
超时 时 间 ， 当 超时 之 后 ， 客 户 端 尝试 向 集群 的 其 它 DataNode 发 起 连接 。 


备份 文件 契约 (Lease) 机 制 : 另 一 个 改进 


。 当 RPC 客 户 端 侦 测 到 RPC 连 接 超时 











民 务 器 发 送 一 个 ping， 如 果 服 务 器 仍旧 有 








a, 
FE 


极端 。 


快速 








因为， 在 这 种 情况 下 服务 器 很 可 能 处 于 
额外 的 负担 。 











那么 在 Facebook 中 为 RPC 链 接 设置 一 个 


撤回 写 者 所 持 有 的 契约 。HDFS 仅 支持 


单个 写 者 对 文件 的 写 操 作 ，NameNode 通 过 下 放 契 约 来 控制 对 文件 的 写 操作 。 然 后 在 某 些 情 


况 下 当 需 要 对 文件 进行 读 的 时 候 ， 读 操作 可 能 与 对 文件 


操作 通过 向 日 志文 件 添加 


Heo PRAT AAR, NEII 
这 种 机 制 依赖 于 管道 ， 当 发 


Abe pe 
等 待 


信息 来 触发 文件 








E 故 障 时 重建 管道 的 时 





为 了 克服 这 种 问题 ，Facebook 设 
销 文件 的 契约 。 当 NameNode 接 收 到 recoverLease 请 求 时 
恢复 操作 完成 之 后 ， 请 求 方 可 


行 契 约 恢复 处 理 。 当 契约 | 


读 取 本 地 副本 : HDFS 虽 然 增 强 了 数据 存储 系统 的 可 











写 操作 和 读 操作 的 延迟 。 因 








此 ，Facebook 在 其 








的 * 软 契约 
该 契约 


F 了 一 种 轻 量 级 的 


PHA T 





的 写 操作 进行 冲突 。 在 之 前 ， 后 续 的 
”过 期 ， 从 而 获得 该 文件 的 契约 。 文 
为 了 应 对 这 种 冲突 的 发 生 。 然 而 ， 
司 过 长 ， 对 系统 性 能 影响 较 大 。 


[a 
FE 





API: recoverLease， 它 能 够 显 式 地 撤 


它 马上 撤回 文件 的 契约 ， 然 后 进 
以 获得 文件 的 契约 。 








扩展 性 和 性 能 ， 然 而 往往 带 来 的 是 
也 点 侦 测 机 制 ， 若 客户 端 发 现 数据 处 








于 本 地 节点 中 ， 那 么 它 将 优先 从 本 地 节点 读 取 数 据 。 
(5) 系统 新 特性 


HDFS 同 步 操作 : Hflush/sync 对 于 HBase 和 Scribe 来 说 同样 重要 ， 该 机 制 首先 将 数据 缓存 
在 本 地 ， 然 后 将 数据 写 入 管道 。 在 数据 被 完全 接收 之 前 ， 该 数据 在 本 地 将 一 直 有 效 ， 用 户 可 
以 直接 从 本 地 读 取 到 数据 的 信息 。 另 外 ， 该 机 制 允许 后 续 的 操作 不 必 等待 操 作 的 完成 ， 在 他 
们 看 来 Hflush/sync 完 全 是 透明 的 。 






































并 发 读者 : 在 Facebook 中 某 种 应 用 程序 需要 对 正在 写 的 文件 执行 读 操作 。 此 时 ， 读 者 需 
要 首先 与 NameNode 进 行 通信 来 获取 文件 的 meta 信 息 。 由 于 此 时 NameNode 并 没有 文件 的 最 
新 块 信息 ， 读 者 需要 与 文件 某 一 副本 所 在 DataNode 进 行 通信 来 获取 文件 的 快 信息 ， 然 后 再 对 
文件 执行 读 操作 。 




















2.HBase 的 实现 








上 面 介绍 了 Facebook 对 Hadoop 的 一 些 修改 和 优化 ， 下 面 介 绍 它 在 实际 使 用 HBase 时 进行 
的 修改 。 











(1) 数据 库 ACID 特 性 














一 些 应 用 程序 开发 者 总 是 希望 新 型 数据 库 系统 能 够 保持 原 有 的 ACID 特性 ，Facebook 同 样 
对 HBase 系 统 进行 了 改进 ， 使 其 尽量 满足 ACID 特性 。 首 先 ，Facebook 采 用 类 MVCC 的 读 写 一 
致 性 控制 策略 (Read-Write Consistency Control, RWCC) 来 为 系统 提供 隔离 性 的 保证 ， 并 且 
采用 “ 先 写 日 志 ” 的 方法 来 保证 数据 的 持久 性 。 下 面 将 介绍 Facebook 是 如 何 对 系统 进行 改进 ， 
使 其 满足 原子 性 和 一 致 性 。 
























































首先 ， 系 统 设 计 的 第 一 步 是 要 保证 数据 库 系 统 行 级 别 的 原子 性 。RWCC 在 大 多 数 情况 下 
可 以 提供 有 效 的 保证 。 然 而 ， 当 节点 发 生 故 障 的 时 候 该 保障 将 可 能 失效 。 例 如 ， 在 最 初 的 时 
候 ， 系 统 的 日 志 是 顺序 存 入 HLog 文 件 中 的 。 如 果 在 执行 日 志 写 操作 期 间 ，RegionServer 发 生 














故障 ， 那 么 将 可 能 只 有 部 分 日 志 被 写 入 。Facebook 重 新 设计 了 HLog， 命 名 为 WALEdit， 它 能 
够 保证 写 事务 要 么 全 部 执行 要 么 全 部 不 执行 。 




















HDFS 为 数据 提供 了 副本 ， 因 此 需要 采用 一 定 的 策略 来 保证 系统 的 一 致 性 。 在 Facebook 
中 ， 它 们 使 用 管道 的 机 制 ， 当 有 新 数据 更 新 到 来 的 时 候 ，NameNode 首 先 为 不 同 的 数据 副本 
创建 管道 ， 当 所 有 的 副本 更 新 完成 之 后 ， 副 本 需要 向 NameNode 发 送 ACK 确 认 。 在 此 期 间 ， 
HBase 将 会 一 直 等 待 ， 直 到 所 有 的 操作 完成 。 假 如 期 间 有 某 一 个 副本 写 操作 失败 ，HBase 将 
控制 系统 参考 日 志 进 行 回 滚 操作 。 另 外 ，Facebook 还 采用 一 定 机 制 保证 数据 不 被 破坏 ， 在 数 
据 读 取 时 ， 了 Base 首先 检查 数据 的 校 验 和 ， 当 校 验 和 错误 ， 系 统 将 自动 删除 该 份 数据 ， 然 后 
检查 其 他 副本 。 
















































































(2) HBase 可 用 性 改进 

















于 HBase 中 很 多 重要 信息 保存 在 HBase 的 Master 中 ， 而 HBase Master 只 有 一 个 ， 当 发 生 
故障 时 将 有 数据 丢失 的 可 能 性 。 为 了 尽量 避免 这 种 情况 的 发 生 ，Facebook 转 而 将 数据 存储 在 
ZooKeeper 中 ， 因 为 ZooKeeper 采 用 的 是 一 个 “大 多 数 ” 的 策略 ， 数 据 将 被 存储 在 多 个 节点 当 
中 。 当 某 一 个 节点 发 生 故 障 时 ， 用 户 仍旧 能 从 其 它 节点 获取 数据 。 







































































Facebook 指 出 ，HBase 集 群 的 停机 问题 往往 是 由 节点 的 随机 性 宕 机 引起 的 ， 并 不 是 由 于 
系统 的 日 常 维护 工作 。 因 此 Facebook 通 过 对 系统 的 改进 来 尽量 缩短 停机 的 时 间 。 例 如 ， 某 一 
节点 在 发 起 停机 请 求 之 后 会 间歇 性 地 发 生 停机 事件 ， 这 是 由 于 较 长 的 数据 压缩 周期 造成 的 。 
因此 Facebook 将 压缩 设置 为 可 中 断 性 操作 ， 这 样 能 够 将 停机 时 间 缩 短 到 秒 的 级 别 。 



























































另外 一 个 问题 是 软件 的 更 新 。 为 了 应 对 软件 的 更 新 ，HBase 需 要 将 集群 “停机 "， 然 后 再 
更 新 之 后 进行 “重新 启动 "。 为 了 处 理 这 个 问题 ，Facebook 选 择 采 用 轮 询 的 方式 对 集群 节点 进 
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台 进 行 更 新 ， 周 而 复 始 ， 直 到 全 部 系统 更 新 完成 。 





在 HBase 中 ， 当 某 一 个 RegionServer 发 生 故 障 时 ， 处 于 该 机 器 的 HLog 需 要 被 重新 分 配 到 




















HLog 


(3) HBase 性 能 提升 





其 余 有 效 的 节点 上 。 在 之 前 该 操作 
的 HLog， 该 操作 将 花费 很 长 的 时 间 。 在 Facebook 中 ， 他 们 采 
的 划分 ， 这 使 得 该 操作 的 时 间 降 低 了 很 多 倍 。 


对 于 HBase 的 写 操 作 ，Facebook 通 过 缓存 机 和 








HMaster 来 完成 ， 但 是 











于 一 个 节点 上 可 能 保存 了 





























ZooKeeper 集 群 来 负责 


侧 将 对 数据 库 的 多 次 写 减少 到 更 少 次 数 地 


写 。 当 数据 到 来 的 时 候 ， 数 据 首先 被 写 入 提交 日 志 ， 然 后 并 非 直接 写 入 数据 库 而 是 首先 写 入 


到 缓存 系统 MemStore 中 。 当 缓存 系统 容量 到 达 阔 
不 变型 HDFS 文 件 〈 不 被 更 改 ) 。 数 据 的 更 新 采 
并 非 对 HFile 文 件 进行 修改 。 当 需要 读 取 数据 的 时 
取 相关 记录 进行 整合 。 当 一 定 











操作 带 来 的 延迟 。 


众所周知 ， 系 统 中 文件 数 





系统 中 














制 ， 从 而 避免 大 数据 块 的 产 和 4 


免 额 外 的 操作 。 


对 于 读 操作 来 说 ， 某 一 个 Regiond 
可 以 知道 ， 通 过 对 数据 的 压缩 可 


是 HFile 文 件 特定 统计 信息 ， 由 于 Regiond 





H 























的 是 附加 











值 之 后 ， 缓 存 将 数据 写 入 HFile 中 ，HFile 是 
的 方式 ， 即 继续 写 HFile 文 件 ， 而 
器 ，HBase 控 制 系 统 并 行 读 取 HFile 文 件 并 





抽 








间 之 后 ，HBase 对 HFile 进 行 压缩 、 合 并 操作 ， 以 避免 后 续 读 


且 生 成 的 HFile 文 件 可 能 
































ph 文件 数目 的 多 少 对 其 有 很 大 的 影响 ， 在 之 前 的 介绍 中 
[以 大 大 减少 文件 的 数目 。 另 外 Facebook 可 以 通过 某 些 技术 来 
加 快 文件 的 搜索 ， 跳 过 不 必要 的 文件 。 例 如 : Bloom Filter 和 时 间 戳 策略 。Bloon Filter 记 录 的 
文件 数目 相当 多 ， 因 此 Facebook 中 通过 使 





bh 的 压缩 分 为 两 种 类 型 ; 
部 分 文件 进行 压缩 。 主 要 的 压缩 不 但 对 所 有 的 文件 进行 压缩 ， 
写 以 及 清除 过 期 数据 等 操作 。 在 这 种 情况 下 ， 次 要 压 
大 ， 这 种 文件 不 但 会 对 块 缓存 系统 的 性 
“ 生 影 响 ， 也 会 对 今后 的 进一步 压缩 产生 影响 。 因 此 在 Facebook 中 对 压缩 块 的 大 小 进行 限 
E。 此 外 ，Facebook 还 对 HBase 原 有 的 压缩 算法 进行 了 改写 ， 避 





目的 多 少 对 系统 的 读 操作 以 及 网 络 10 都 有 很 大 的 影响 ， 因 此 在 
定期 对 文件 进行 压缩 是 非常 有 必要 的 。HBase 
。 次 要 的 压缩 操作 仅仅 选择 
且 在 必要 情况 下 对 系统 执行 
缩 产生 的 效果 并 不 理想 ， 并 
产 











次 要 的 和 主要 
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A (folding) ， 进 一 步 降 低 Bloom Filter 的 大 小 。 这 样 讲 Bloom Filter 存 储 到 内 存 之 中 ， 从 而 加 





快 文件 的 检索 。 另 外 通过 对 时 间 戳 的 比 对 ， 同 样 可 以 加 快 文件 的 检索 速度 。 


3. 展 望 


虽然 Facebook 修 改 后 的 Hadoop 和 了 HBase 存 储 架 构 很 大 程度 上 满足 了 其 对 存储 架构 的 设计 
需求 ， 但 展望 未 来 ，Facebook 还 提出 了 未 来 这 个 存储 架构 完善 的 几 个 方面 : 














迭代 的 优化 ; 





1) 对 Hadoop 和 HBase 应 











2) 对 HBase 二 级 索引 和 视图 摘要 的 支持 ， 以 及 对 这 些 特 性 的 异步 维护 ; 








3) HBase 内 存 管理 和 扩充 ， 可 通过 slab 或 者 JNI 进 行内 存 管 理 ， 通 过 flash memory 来 扩 


HBase cache; 


cl 


4) 解决 HBase 多 数据 中 心 replication 和 冲突 问题 。 





19.6 本章 小 结 














本 章 按照 系统 的 从 简 到 难 、 应 用 的 从 浅 到 深 ， 介 绍 了 Hadoop 在 企业 中 的 应 
































和 实践 ， 涵 








盖 了 经 封装 后 直接 使 用 Hadoop 模 块 、 修 改 完善 Hadoop 设 计 等 内 容 ， 特 别 是 大 篇 幅 地 介绍 了 


Be ae 





Facebook 使 用 Hadoop+HBase 的 一 些 细节 。 和 希望 大 家 能 认真 学 习 ， 掌 握 如 何 使 Had 



































应 用 中 扮演 重要 的 角色 ， 学 会 基于 Hadoop 搭 建 大 型 应 


际 需求 修改 完善 Hadoop。 
































oop 在 大 型 








框架 ， 并 能 在 系统 开发 应 

















中 根据 和 








另外 ， 本 章 关 于 Hadoop 在 Yahoo! 的 应 用 内 容 是 根据 Hadoop 云 计算 大 会 上 Yahoo! 研 
究 人 员 的 报告 整理 而 成 的 ，Pig 和 Hive 应 用 相关 内 容 来 自 Yahoo! 研究 人 员 的 博客 趾 大 家 








如 果 想 要 了 解 Hadoop 在 Yahoo! 应 用 的 更 多 细节 和 进展 ， 请 关注 Yahoo! Hadoop 团 队 的 











博客 Cdeveloper.yahoo.com/blogs/hadoop) 。 




















Hadoop 在 eBay 的 应 用 内 容 是 根据 eBay 研究 人 员 的 技术 博客 [] 整理 而 成 的 ， 其 中 参考 了 
eBay 分 析 平 台 开 发 部 Anil Madan 介 绍 的 Hadoop 在 eBay 的 使 用 情况 ， 大 家 想 要 了 解 Hadoop 在 
eBay 应 用 的 更 多 信息 ， 可 以 关注 eBay 研究 人 员 的 技术 博客 Cwww.ebaytechblog.com) 。 






























































百度 和 即刻 搜索 使 用 Hadoop 平 台 的 情况 则 是 根据 近 几 届 Hadoop 中 国 云 计算 大 会 上 对 应 
企业 研究 人 员 的 报告 整理 而 成 ， 大 家 如 果 想 了 解 更 详细 的 信息 或 Hadoop 中 国 云 计算 大 会 的 相 
关 信 息 可 登录 Hadoop in China 网 站 : http: //www.hadooper.cn. 














Facebook 的 企业 案例 是 根据 Facebook 公 开发 表 的 论文 [3] 整理 而 来 。 
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检测 流程 














使 用 介绍 








附录 A 云 计算 在 线 检测 
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At FENA 





MapReduce 的 日 趋 流 行 带动 了 普通 程序 员 学 习 MapReduce 的 潮流 ， 它 的 学 习 资料 也 日 趋 
丰富 起 来 。 但 是 MapReduce 运 行 所 需 的 并 行 环境 却 成 为 了 入 门 者 学 习 的 最 大 障碍 ， 主 要 原因 
是 并 行 环境 的 硬件 要 求 高 ， 配 置 复杂 ， 同 时 现 有 的 学 习 资 料 中 鲜 有 编程 实战 方面 的 指导 ， 更 
多 专注 在 MapReduce 的 理论 知识 上 。 综 合 这 些 情况 ， 我 们 开发 了 云 计算 在 线 检测 平台 
Chttp: //cloudcomputing.ruc.edu.cn/) ， 为 大 家 提供 理论 知识 测试 和 利用 理论 知识 进行 实战 
的 机 会 。 该 平台 提供 运行 程序 的 并 行 环 境 ， 避 免 入 门 者 将 精力 都 花费 在 环境 配置 上 ， 帮 助 他 
们 配合 本 书 进行 学 习 和 实践 。 












































云 计算 在 线 检 测 平台 是 一 个 MapReduce 程 序 检测 平台 。 此 平台 基于 Hadoop 集 群 提供 了 
MapReduce 并 行程 序 运行 的 分 布 式 环境 ， 旨 在 为 MapReduce 的 入 门 者 提供 简单 具体 的 编程 练 
习 ， 使 其 初步 掌握 MapReduce 框 架 的 编程 思想 ， 并 拥有 使 用 MapReduce 并 行 化 解决 实际 问题 
的 能 力 。 用 户 可 以 根据 平台 提供 的 问题 背景 ， 开 发 自己 的 并 行程 序 并 提交 运行 。 平 台 会 根据 
运行 结果 反馈 给 用 户 一 定 的 信息 ， 以 便 进行 修改 或 进一步 优化 。 用 户 也 可 以 在 平台 上 进行 分 
布 式 系统 理论 知识 的 测试 ， 以 提高 理论 水 平 。 同 时 ， 此 平台 结合 分 布 式 系统 架构 Hadoop、 
My SQL 技 术 和 Tomcat 技 术 ， 提 供 了 在 线 的 分 布 式 并 行 运行 环境 ， 供 用 户 运 行 自 己 所 提交 的 
并 行程 序 。 根 据 实际 的 使 用 结果 和 平台 功能 完整 性 的 需求 ， 平 台 的 结构 已 经 从 原来 的 前 台 月 
户 接口 和 后 台 程序 运行 两 个 主体 结构 发 展 成 前 台 用 户 接口 、 后 台 运 行程 序 和 平台 程序 过 滤 模 
块 三 大 部 分 。 前 台 用 户 接口 负责 同 用 户 的 交互 ， 包 括 保存 用 户 提交 的 代码 、 返 回程 序 的 检测 
结果 等 ， 后 台 运 行程 序 负责 前 台 收 集 的 用 户 代 码 并 检测 结果 ， 同 时 将 检测 的 结果 交 给 前 台 并 
维护 网 站 用 户 的 信息 ， 提 供 整个 网 站 的 网 络 服务 ， 代 码 过 滤 模块 主要 实现 了 雷同 代码 的 过 滤 
和 非 MapReduce 合 理 框架 程序 的 过 滤 。 
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云 计算 在 线 检测 平台 兼顾 实战 和 理论 ， 能 让 用 户 在 进行 理论 测试 的 过 程 中 掌握 开源 分 布 
式 系统 架构 Hadoop 的 相关 知识 和 MapReduce 的 理论 知识 ， 能 让 用 户 在 编程 提交 和 修改 再 提交 
的 过 程 中 切身 体验 到 如 何 利 用 分 布 式 系统 Hadoop、MapReduce 编 程 ， 以 及 如 何 用 MapReduce 
并 行程 序 来 解决 实际 问题 。 总 体 来 说 ， 此 平台 能 够 提高 用 户 的 理论 水 平和 实战 能 力 ， 是 
















































































MapReduce 入 门 者 不 错 的 入 门 指导 。 


A.2 结构 和 功能 








正如 前 一 节 中 所 介绍 





的 ， 云 计算 在 线 检测 平台 已 发 展 成 由 三 大 部 分 组 成 ， 分 别 是 前 台 

















户 接口 、 后 台 程序 运行 及 平台 程序 过 滤 模 块 ， 下 面 分 别 对 它们 进行 介绍 。 




















A.2.1 ”前台 用 户 提 




















前 台 用 户 接口 的 功能 结构 如 图 A-1 所 示 。 它 主要 包括 
编程 练习 、 分 布 式 系统 理 





























名 和 密码 登录 了 ， 同 时 
录 。 在 注册 时 如 果 发 生 








的 结构 和 功能 








户 完全 服务 主要 包括 注册 、 登 录 和 更 新 信息 等 。 注 
户 的 注册 ， 云 计算 在 线 检测 平台 只 对 注册 用 户 提供 代码 检 闹 
名 、 注 册 码 〈 选 填 ) 、 密 码 、 单 位 、 邮 箱 等 信息 ， 注 册 成 功 之 后 用 户 就 可 以 使 用 注册 的 
pg 箱 会 收 到 一 封 注册 邮件 ， 以 防止 
户 名 已 注册 、 密 码 了 




















E 论 知识 测试 、 帮 助 功能 ( 指 网 站 的 使 用 帮助 、Hadoop 介 绍 文档 ， 以 
及 网 站 的 中 文 页 面 ) 。 下 面 分 别 详细 介绍 这 四 个 功能 




















部 分 内 容 : 用 户 完 全 服务 、 实 例 

































































是 指 用 户 在 Register 页 面 完 成 新 


j 服 务 。 在 注册 页 面 需要 填写 用 户 













































































户 
户 忘记 用 户 名 和 密码 以 致 无 法 登 





























败 。 注 册 成 功 后 可 以 在 
成 登录 操作 。 登 录 成 功 

















首页 的 右上 角 直 接 使 




















的 














E 复 错误 、 验 证 码 输入 错误 等 ， 将 会 导致 注册 失 
户 名 和 密码 进行 登录 ， 也 可 以 在 login 页 面 完 























户 可 以 选择 login out。 更 改 个 人 




















如 果 用 户 期 望 做 出 更 改 ， 可 以 在 update your info 页 面 完成 。 





信息 是 指 更 改 个 人 密码 等 信息 ， 


MapReduce 


OnlmecFvaluatic n 
一 一 
实例 编程 MRH W 
广 册 (eR E Rit FAQs 
A r Hadeaptt 
DE ot 
登录 提交 答案 EA Akii 
Dib ie hea G 提交 历史 BBS 论坛 


MapReduce 实 例 编程 练习 主要 包括 题目 浏览 、 提 交 答 案 、 查 看 提交 记录 、 查 看 提交 源 
码 、 查 看 检测 结果 。 在 云 计 算 在 线 检测 平台 上 ， 开 发 小 组 设计 了 很 多 基于 MapReduce 并 行 杠 
架 能 够 解决 的 实际 问题 。 用 户 可 以 在 problem 页 面 详细 浏览 各 个 问题 的 背景 ， 以 及 输入 输出 
要 求 和 注意 事项 。 然 后 利用 自己 的 MapReduce 理 论 知识 ， 针 对 有 具体 实例 问题 来 编写 自己 的 实 
例 解决 代码 ， 并 且 在 submit solution 页 面 提 交代 码 。 网 站 会 运行 用 户 提交 的 代码 ， 然 后 在 网 站 
上 反馈 相应 的 结果 。 用 户 可 以 在 My submission 页 面 中 查看 自己 的 提交 记录 ， 也 可 以 单 击 每 一 
条 记录 中 的 source 连 接 查 看 自己 提交 的 代码 ， 同 时 还 可 以 单 击 result 栏 下 面 的 连接 查看 检测 结 
果 。 








































































































分 布 式 系统 理论 知识 测试 主要 指 用户 单 击 首页 的 theory test 之 后 会 出 现 一 份 限时 半 小 时 的 
试卷 ， 共 20 道 选择 题 。 这 些 选 择 题 都 是 随机 从 平台 中 题库 里 选 出 来 的 ， 题 目 是 关于 分 布 式 系 




































































































































































































































































































































































统 的 理论 知识 ， 主 要 集中 在 Hadoop 及 其 子 项 目 上 。 答题 完毕 单 击 提交 按钮 或 在 页 面 上 停 
留 的 时 间 超 过 半 小 时 ， 所 有 答案 就 会 提交 。 平 台 通过 比 对 之 后 会 将 每 道 题目 的 正确 答案 及 
户 的 回答 一 起 返回 ， 并 计算 出 此 次 测试 的 分 数 。 

帮助 功能 主要 指 网 站 的 使 用 帮助 、 网 站 对 应 的 中 文 页 面 ， 以 及 Hadoop 的 介绍 文档 和 用 于 
讨论 的 BBS 版 块 。 网 站 的 使 用 帮助 在 首页 的 FAQs 页 面 下 ， 主 要 是 关于 网 站 在 实际 使 用 中 要 注 
意 的 事项 。 网 站 对 应 的 中 文 页 面 可 以 点 击 Chinese 链 接 进入 。 中 文 页 面 也 提供 了 与 英文 页 面 完 
全 相同 的 服务 。Hadoop 快 速 指南 网 站 上 的 Hadoop Quick Start 链 接 和 它 所 提供 的 在 线 文档 ， 主 
要 为 用 户 提供 一 些 Hadoop 分 布 式 系统 的 初步 认识 和 安装 说 明 。BBS 论 坛 允 许 用 户 在 平台 上 交 
流 MapReduce 的 学 习 经 验 ， 以 及 对 平台 上 题目 ， 同 时 还 可 以 留 下 自己 关于 平台 使 用 的 疑问 。 
A.2.2 后 台 程 序 运行 的 结构 和 功能 

后 台 程序 运行 的 功能 结构 如 图 A-2 所 示 。 后 台中 的 主要 模块 也 是 四 部 分 ;Tomcat 服务 
器 、My SQL 数 据 库 、Hadoop 分 布 式 环境 、Shell 文 档 。 下 面 详细 介绍 这 四 个 功能 块 。 

Tomcat 服 务 器 : 担当 网 站 的 Web 服 务 器 角色 ， 保 证 用 户 能 够 从 网 络 上 访问 到 平台 ， 并 将 
开发 小 组 基于 JSP 技 术 开 发 的 网 页 呈现 在 用 户 的 电脑 上 。 

MySQL 数 据 库 : 其 中 主要 是 网 站 的 信息 ， 包 括 用 户 个 人 信息 、 用 户 提交 记录 、 网 站 题库 
等 。 基 于 JSP 技 术 开发 的 网 页 通过 调用 My SQL 的 接口 ， 获 取 用 户 请 求 的 信息 ， 并 将 其 呈现 在 
网 页 上 或 将 网 页 上 提交 的 信息 保存 到 数据 库 中 。 














Tomcat |e 懈 站 的 Weh 谍 用 服务 器 


MySQL. |. 维护 网 站 信息 存储 


Hadaap |e HERIT EEF rI 


+ 串联 展 站 的 前 牛人 台 的 各 个 功能 抉 


图 A-2 后 台 结 构图 





Hadoop 分 布 式 环境 : 是 整个 后 台 的 核心 所 在 ， 因 为 它 是 云 计算 在 线 检测 平台 提供 特色 服 
务 的 核心 。 开 发 小 组 首先 在 多 台 计 算 机 上 安装 好 Hadoop 分 布 式 系统 ， 形 成 一 个 分 布 式 环境 ， 
然后 再 在 集群 上 配置 网 站 提供 服务 ， 这 就 可 以 保证 为 用 户 提交 的 代码 提供 并 行程 序 运行 所 需 
的 真实 分 布 式 环境 。Hadoop 集 群 的 主要 功能 就 是 运行 用 户 提交 的 代码 ， 给 出 结果 。 





















































Shell 文 档 : 在 检测 平台 的 系统 中 扮演 着 人 体 中 血液 的 角色 。 它 首先 将 网 页 保存 下 来 的 
户 代 码 进行 预 处 理 ， 比 如 检测 是 否 是 正确 的 Java 程 序 等 ， 然 后 再 对 预 处 理 之 后 的 结果 进行 预 
编译 ， 成 功 之 后 再 将 代码 提交 到 Hadoop 上 ， 接 着 再 收集 Hadoop 的 运行 结果 ， 然 后 与 标准 结 
果 进 行 比 对 ， 最 后 将 比 对 的 结果 分 类 返回 给 前 台 网 页 ， 呈 现在 用 户 面前 。 综 合 来 说 ，Shell 文 
档 将 前 台 功 能 块 和 后 台 功 能 块 串联 了 起 来 ， 以 便 为 用 户 提供 连贯 的 服务 。 




































































A.2.3 平台 程序 过 滤 功 能 








这 部 分 主要 实现 了 两 个 与 





























户 程序 直接 相关 的 功能 : 








代码 程序 过 滤 。 添 加 过 滤 模 块 的 主要 出 发 点 是 ， 管 理 员 发 现在 平台 的 使 
户 直接 提交 他 人 代码 或 者 经 过 一 些 初级 的 代码 移动 、 蔡 换 等 








提交 的 代码 所 有 任务 
输出 获取 的 输入 ， 这 
程序 ， 因 为 它 未 能 利 
存在 增加 了 处 理 的 负 


























全 
号 


为 安排 在 一 个 二 
程序 看 似 运 
MapReduce 框 架 来 并 行 处 理 问 题 ， 甚 至 
胆 。 这 两 种 现象 都 是 不 应 该 出 现 的 ， 但 是 
匹配 结果 是 否 正确 ， 导 致 这 些 不 合理 代码 会 被 接受 。 为 了 避免 这 些 现象 ， 管 理 员 升级 了 平 
普 加 了 代码 过 滤 模 块 。 下 面 简要 介绍 这 两 个 功能 实现 细节 : 


点 的 Reduce 函 数 叶 




















了 Ma 





















































(1) 非 MapReduce 合 理 框架 程序 过 滤 功 能 


MapReduce 框 架 通 过 Map 和 Reduce 两 个 函数 ， 实 现 了 集群 对 海量 数据 的 并 
Map 函 数 起 到 数据 预 处 理 和 分 流 的 功能 ，Reduce 函 数 再 根据 不 同 的 key 获取 不 同 
出 流 ， 进 行 深度 数据 处 理 ， 可 见 Map 函 数 和 Reduce 函 数 二 者 功能 缺 一 不 可 。 但 是 在 平台 使 
户 只 是 简单 地 将 所 有 数据 的 处 理 任务 都 放 在 一 个 节点 的 Reduce 函 数 中 




















中 ， 部 分 















































f 行 处 理 。 其 中 





非 MapReduce 合 理 框架 程序 过 滤 和 

过 程 中 ， 部 分 

提交 他 人 代码 ， 甚 至 有 些 用 户 

完成 任务 ，Map 函 数 的 功能 就 是 直接 

Reduce 框 架 ， 但 是 并 不 是 合理 的 MapReduce 框 架 
于 Map 函 数 这 个 无 用 过 程 的 

于 之 前 平台 是 自动 运行 ， 只 








仅 输出 接受 的 输入 。 这 种 处 理 方法 是 不 合理 的 。 








中 key 





不 合理 的 Ma 


(2) 雷同 代码 的 过 











通过 观察 和 分 析 这 些 程序 ， 管 理 员 发 现 ， 
函数 中 处 理 ， 那 么 他 就 需要 将 Ma 
Reduce 合 理 框架 程序 过 滤 





滤 








i H 
Ph， 管 理 员 首 先 定位 Map 函 数 的 输出 位 置 ， 再 定位 输出 位 置 
的 位 置 ， 如 果 程序 辨别 此 key 值 为 某 个 固定 值 ， 那 么 说 明 
Reduce 框 架 程序 ， 从 而 不 执行 此 程序 ， 输 出 为 Ma 











户 要 想 将 所 有 
8 的 ley 选 为 一 个 固定 值 。 











的 Map 函数 输 














所 以 从 这 一 点 出 发 ， 























Reduce Error。 














Ph，Map 函 数 


的 任务 放 在 一 台 节 点 的 Reduce 


在 平台 的 





户 并 未 将 输入 数据 分 流 ， 是 





抄 秦 在 平常 的 工作 中 非常 常见 ， 特 别 是 在 计算 机 领域 。 从 发 现 有 雷同 代码 出 现 





理 员 就 开始 研读 对 应 的 雷同 代码 检测 文献 ， 学 习 相关 方法 ， 寺 


的 雷同 代码 过 滤 主 要 采 





以 下 步骤: 





pizi 


之 后 ， 管 
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到 平台 中 。 现 在 平台 





过 滤 无 效 字 符 ， 蔡 换 变 量 为 同一 字符 ; 


按照 固定 窗口 大 小 ， 滑 动 获取 固定 大 小 的 连续 字符 导 





iit 





计算 每 个 字符 串 的 Hash 函 数值 ; 

















按照 固定 窗口 大 小 ， 滑 动 获取 固定 大 小 的 连续 Hash 函 数值 ; 





获取 每 个 连续 函数 值 串 
的 函数 值 只 能 出 现 一 次 ; 


a 











的 最 小 函数 值 ， 结 合 其 位 置 参数 作为 代码 的 指纹 ， 某 一 位 置 上 





计算 此 代码 指纹 与 代码 指纹 库 中 每 个 指纹 的 相似 度 ， 如 果 超 过 某 一 阔 值 则 判 为 雷同 代 
码 ; 











界面 显示 雷同 代码 ， 并 自动 发 送 邮件 给 用 户 和 系统 管理 员 。 











于 代码 抄袭 和 代码 学 习 之 间 的 界限 并 不 明确 ， 可 能 会 将 代码 错 判 为 雷同 代码 ， 雷 同 代 
码 的 过 滤 在 平台 中 发 挥 了 巨大 作用 ， 模 块 刚 加 入 之 处 就 判 出 了 两 例 雷 同 代码 。 
























































代码 过 滤 模 块 的 加 入 ， 并 不 是 为 了 增加 用 户 使 用 的 难度 ， 而 是 为 了 规范 用 户 的 代码 ， 优 
化 平台 的 使 用 。 系 统管 理 员 会 根据 实际 的 使 用 情况 ， 不 断 更 新 扩展 此 模块 功能 ， 使 平台 功能 
更 加 完善 ， 用 户 使 用 更 加 方便 。 




































































A3 检测 流程 


经 过 前 面 两 节 的 介绍 ， 大 家 对 整个 于 
何 运行 的 呢 ? 它 的 运行 流程 是 什么 ? 本 节 将 详细 介绍 云 计算 在 线 检测 各 


程 。 











总 体 来 说 ， 平 台 对 
果 分 析 返回 、 结 果 显 示 五 个 阶 





























代码 保存 阶段 : 用 户 在 网 页 上 粘 
代码 保存 在 服务 器 上 一 个 唯一 的 文件 


es 
Bo 

















代码 预 处 理 阶 段 : 用 户 在 











贴 自己 的 代码 ， 
>H 


kad 


中 








提交 代码 之 后 ， 网 站 在 进行 代码 保存 的 同时 还 会 调 





F 台 已 经 有 一 个 直观 整体 的 认识 ， 那 么 这 个 
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f 在 后 台数 据 库 中 


F 台 是 如 


户 代 码 的 流 














口 检测 











户 代 码 的 检测 流程 主要 包括 代码 保存 、 代 码 预 处 理 、 代 码 运 行 和 结 
股 ， 下 面 将 分 别 介绍 这 五 个 阶段 : 











户 的 
代码 路 


submit 提 交 之 后 ， 网 站 会 把 
保存 这 一 次 提交 的 信息 和 























Shell 文 档 











来 进行 代码 的 预 处 理 。Shell 文 档 被 调 

















运行 之 后 就 会 开始 








户 代码 的 预 处 理 。 首 先 Shell 文 档 




















会 按照 调用 的 路 径 参 数 从 本 地 








找到 











Java 代 码 、 是 否 符合 MapReduce 框 架 要 求 等 。 如 果 预 处 理 成 功 就 会 将 代码 提 





户 代码 ， 然 后 检测 用 








户 代码 ， 比 如 程序 是 否 是 可 运行 的 


交 给 Hadoop 分 布 


en 


式 环境 运行 ， 如 果 预 处 理 失败 就 会 直接 返回 并 将 错误 原因 呈现 到 网 页 界面 上 。 


代码 运行 阶段 :代码 预 处 理 成 功 之 后 会 被 提交 到 Hadoop 分 布 式 环境 上 ，Hadoop 调 
先 已 经 保存 在 HDFS (Hadoop 分 布 式 文件 系统 ) 上 的 


程 中 
束 之 后 ，Shell 文 档 会 将 结果 信 
一 步 处 理 。 








息 
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结果 分 析 返 回 阶段 :结果 分 析 返 
有 


类 ， 生 成 结果 文件 ， 然 后 将 相关 的 信 





在 分 析 结 果 时 ， 首 先 查 看 有 没有 输出 结果 ， 如 果 有 输出 结果 就 和 标准 输出 进行 对 比 ， 
洪 误 就 返回 结果 Wrong Answer。 如 果 没 有 结果 ， 再 将 输出 信息 


返回 结果 Accepted， 





向 到 代码 文件 中 





息 写 入 数据 库 ， 供 平 





输入 数据 来 运行 代码 。 在 地 
hh， 代码 在 Hadoop 上 的 运行 和 在 线 下 自己 提交 代码 到 Hadoop 上 的 运行 相同 。 代 码 运 行 结 
同样 唯一 的 结果 信息 文件 中 

















jE 








F 台 的 处 理 





at 
be 
Fi 





Po 


以 交 给 下 


回 阶段 主要 是 分 析 Hadoop 运 行 的 结果 信息 ， 对 结果 分 








台 显 示 代 码 运行 结果 时 调 





。Shell 
E 确 就 


同一 些 结 








1 





果 关 键 词 进行 匹配 ， 然 后 返 








EJ 




















结果 显示 : 


库 接口 ， 搜 索 此 次 提交 记录 在 数 














户 在 My Submission 界 面 点 击 result 一 栏 





He Pp 








的 路 径 ， 然 后 将 其 











内 容 显示 在 页 


户 进行 调整 之 后 重新 提交 。 


结合 上 面 的 介绍 ， 网 站 处 理 


Web 层 


处 理 层 


面 上 ， 如 果 





的 记录 。 找 到 


匹配 成 功 的 那 一 类 错误 信息 。 




















的 结果 链接 之 后 ， 页 面 会 调用 数据 
之 后 ， 页 面 直接 获取 结果 信息 文件 


























代码 有 误 ， 








的 流程 图 如 











A-3 所 示 。 
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oli 


匹配 结果 | 
7) 
结果 


| 作业 JAR 包 


图 A-3 网 站 处 理 流程 




















户 就 可 以 知道 代码 的 错误 所 在 ， 








网 




















A.4 使 用 介绍 














前 面 介绍 了 云 计算 在 线 检测 平台 的 理论 内 容 ， 本 节 将 从 功能 使 用 、 题 目 介绍 、 返 回 结果 
说 明 、 使 用 注意 事项 四 个 方面 详细 介绍 平台 的 使 用 方法 。 

































































A.4.1 功能 使 
































本 附录 第 2 节 介 绍 了 平台 中 前 台 用 户 接口 和 后 台 程 序 运 行 的 结果 和 功能 块 。 而 与 用 户 直 
接 相关 的 就 是 前 台 功 能 的 使 用 。 下 面 用 三 个 使 用 实例 来 说 明 如 何 使 用 前 台 功 能 。 










































































1. 如 何 注册 用 户 ， 如 何 修改 信息 ? 























注册 功能 的 使 用 流程 如 











1) 在 首页 点 击 Register 链 接 ， 进 入 注册 界面 ， 














2) 填写 个 人 信息 ， 包 括 用 户 名 、 注 册 码 〈 选 填 ) 、 密 码 、 邮 箱 、 单 位 、 国 家 、 验 证 码 
































3) 根据 提示 进行 调整 ， 比 如 如 果 提 示 用 户 名 已 存在 ， 就 需要 换 一 个 用 户 名 ， 如 果 提 示 
密码 重复 错误 ， 就 需要 重新 输入 密码 等 。 




















4) 注册 成 功 ， 如 果 注 册 完 之 后 可 以 进入 注册 成 功 界面 ， 就 表示 注册 成 功 了 ， 界 面 上 显 
示 的 是 自己 除 密码 外 的 所 有 注册 信息 ， 同 时 用 户 所 注册 的 邮箱 会 收 到 一 封包 含 用 户 名 和 密码 
的 注册 邮件 ， 以 防止 忘记 用 户 名 或 密码 。 







































































使 用 修改 信息 功能 的 流程 如 下 : 








1) 登录 之 后 在 首页 点 击 Update your info 链 接 ， 进 入 信息 修改 页 面 ; 


2) 填写 要 修改 的 个 人 信息 ; 


3) 点 击 提交 之 后 就 会 进入 修改 成 功 界面 ， 界 面 显示 修改 的 信息 。 





2. 如 何 提交 自己 的 代码 并 查看 结果 ? 





1) 登录 之 后 点 击 具体 题目 下 的 submit 按 钮 ， 进 入 代码 提交 页 面 ， 或 者 点 击 submit solution 
链接 直接 进入 提交 页 面 ， 再 或 者 在 首页 的 problem 一 栏 下 输入 problem ID 直接 进入 problem ， 
然后 点 击 提交 进入 代码 提交 页 面 ; 














2) 在 代码 提交 页 面 的 空白 处 粘贴 自己 的 代码 ， 点 击 提交 ; 





3) 提交 之 后 页 面 自动 跳 入 仅 包含 此 次 提交 信息 的 页 面 ， 在 这 个 页 面 中 用 户 能 够 查看 自 
己 提交 的 代码 ， 同 时 页 面 还 能 够 在 代码 运行 结束 之 后 自动 更 新 result 一 栏 的 状态 ， 并 显示 运行 
结果 《〈 此 处 采用 了 AJAX 技 术 ， 由 于 存在 技术 兼容 问题 ， 所 以 只 有 firefox 支 持 ) ， 更 新 之 后 
户 可 以 点 击 查看 运行 结 





































































































4) 用 户 想 查看 结果 和 自己 的 代码 ， 也 可 以 点 击 My Submission 链 接 ， 进 入 自己 的 提交 记 
录 页 面 ， 点 击 特定 记录 后 的 source 就 可 以 查看 提交 的 代码 了 ， 点 击 result 一 栏 的 结果 可 以 查看 
具体 的 结果 信息 。 











3. 如 何 进行 理论 测试 ? 


1) 登录 后 点 击 Theory test 进 入 理论 测试 界面 ; 





2) 根据 具体 的 题目 选择 正确 答案 ， 然 后 提交 《理论 测试 每 份 试卷 限时 30 分 钟 ， 如 果 在 
页 面 上 停留 的 时 间 超过 30 分 钟 ， 平 台 也 会 自己 提交 页 面 现 有 答案 ) ， 














3) 提交 之 后 页 面 自动 跳 入 结果 页 面 ， 显 示 每 到 题目 的 回答 是 否 正确 。 





A.4.2 返回 结果 介绍 























在 平台 上 提交 代码 之 后 在 提交 历史 中 的 result 一 栏 就 可 以 看 到 结果 。 那 么 都 有 什么 结果 ? 


都 代表 什么 意思 ? 针对 


体 的 错误 














户 应 该 如 何 应 对 ? 














Accepted: 表示 用 户 
行 ， 并且 在 以 于 
同 。 但 是 需要 提醒 的 是 ， 
pb 的 Map 或 
不 是 最 优 














E2 


wi 














seg Hy 
运行 的 效率 ， 


提交 的 代码 已 经 被 接受 ， 而 
台 的 测试 数据 f 
于 Ma 


的 办 法 。 




















FE 为 输入 数据 执行 的 输 
Reduce 编 程 框架 的 原 








[>+] 





平公 
a 
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HERAF EPR 


户 代码 被 接受 的 前 提 是 代码 能 够 正 
的 输出 结果 完全 
上 的 这 些 题 目 完全 可 以 在 


面 将 进行 详细 介绍 


Ë 


确 
H 

















所 以 如 果 

















的 代码 ， 检 查 它 是 否 最 大 程度 利 

















Compile Error: 表示 
题 ， 在 进行 普通 的 Java 程 序 
的 语法 错误 位 置 ， 并 进行 修改 。 
到 平台 上 。 








MapReduce Error: 





现 的 可 能 性 比较 多 ， 主 要 包括 : 


户 代 码 编译 错 
编译 时 


常见 的 Java 程 序 





了 并 行 运行 来 提高 


也 








户 的 代码 被 Accepted 了 ， 


Reduce 阶 段 独立 完成 ， 但 是 这 种 做 法 没有 完全 发 挥 MapReduce 并 














户 还 需要 审视 自己 





a 














， 出 现 这 种 情况 说 明 在 








户 











出 错 了 。 











户 可 以 点 如 




















fresult 栏 的 错误 结果 链 
户 也 可 以 在 本 地 进行 普通 的 Java 编 译 ， 待 通过 之 后 再 提交 


的 代码 


存在 语法 问 
楼 去 查看 具体 








表示 代码 在 Hadoop 上 运行 时 出 现 错 误 并 没有 输出 结果 。 这 种 情况 出 
逻辑 错误 、MapReduce 逻 辑 错 误 等 。Java 程 


序 罗 辑 错误 又 主要 包括 数组 越界 、 未 初始 化 等 ，MapReduce 逻 辑 错误 则 主要 包括 输入 输出 类 


型 不 匹配 等 。 在 遇 到 MapReduce 
出 逻辑 错误 的 


Wrong Answer: 表示 代码 能 





果 和 标准 结果 并 
比如 顺序 是 
检查 是 不 是 程序 逻辑 错误 导致 的 


Runtime Error: 


出 了 正常 的 执行 时 间 。 出 现 这 天 





不 匹配 。 出 现 这 种 情况 时 ， 
否 和 实例 输出 相同 。 然 后 再 检查 结果 
结果 错误 。 


表示 代码 执行 的 时 间 太 长 ， 也 就 是 说 
情况 的 原 














Error 时 相对 比较 麻烦 ， 需 要 








也 方 进行 修改 ， 然 后 再 尝试 提交 。 


够 在 Hadoop 上 正常 运行 并 























FAR ee 
ERGY 




















f 有 输出 结果 ， 只 是 
户 首先 要 检查 自己 代码 的 输出 格式 是 否 
， 是 不 是 漏 掉 了 某 些 


户 仔细 核对 自己 的 代码 ， 找 




















户 的 输出 结 
E 确 ， 
结果 等 ， 最 后 





户 代 码 在 Hadoop 上 执行 的 时 间 超 








Kl 








E 要 是 





























序 太 多 ， 使 运行 效率 降低 了 。 
就 可 以 了 。 





户 只 需要 查看 是 否 存在 死 循 环 代码 并 





户 程序 存在 死 循 环 或 了 


F 台 同时 提交 的 程 








FEE 


台 空 闲 的 时 间 提交 














Memory Exceed: 表示 程序 运行 时 内 存 溢出 ， 即 用 户 代码 中 过 多 使 用 了 内 存 或 无 限 申请 





存 的 代码 (这 主要 针对 主 函数 中 的 代码 ， 























存 或 无 限 开 内 存 的 代码 。 





Evil Code: 表示 提交 的 程序 中 存在 恶意 代码 ， 也 就 是 说 用 户 代码 中 存在 系统 调 





MapReduce Error) 。 出 现 这 种 情况 ， 就 需 

















如 果 在 MapReduce 二 




















出 现 类 似 的 代码 会 返回 











户 在 自己 的 代码 中 仔细 查找 是 否 有 过 多 使 







































































代码 或 


意图 更 改 平台 服务 器 配置 的 代码 等 。 这 就 需要 用 户 清除 代码 中 根本 用 不 到 的 代码 和 一 些 恶意 


代码 了 。 





Sim Code: 表示 提交 程序 的 指纹 和 网 站 代码 指纹 库 中 的 某 一 个 指纹 相似 度 超过 了 


义 的 阀 值 ， 也 就 是 说 此 代码 有 抄袭 的 嫌疑 。 











动 发 送 相关 邮件 ， 并 附 上 用 户 代码 和 雷同 代码 ， 如 果 判 错 用 户 可 同 管理 员 联系 。 






































网 站 定 
自 


发 生 这 种 错误 之 后 网 站 会 向 用 户 和 网 站 管理 员 



































以 上 介绍 了 平台 运行 用 户 提交 的 代码 之 后 所 返回 的 各 种 结果 及 其 出 现 的 原因 和 应 对 策 


























略 。 错 误 的 根本 原因 是 代码 问题 ， 所 以 用 户 遇 到 问题 需要 耐心 审视 自己 代码 ， 修 改革 

















确 的 代码 和 逻辑 ， 删 除 无 用 代码 。 





























A.4.3 ”使 用 注意 事项 








这 一 节 主要 向 大 家 介绍 平台 使 用 的 一 些 注意 事项 ， 这 部 分 内 容 也 可 以 参考 了 














内 容 。 








其 中 不 正 











F 台 FAQs 中 的 


Java 程 序 主 类 的 名 字 必 须 为 My Mapre (否则 编译 错误 ) 。 存 在 这 个 限制 的 原因 是 需要 统 


一 所 有 提交 的 代码 ， 然 后 由 Shell 文 档 再 将 
码 写 专门 的 Shell 文 档 。 





在 配置 MapReduce 程 序 的 输入 输出 时 必须 使 


同 ) : 


其 提交 型 

















户 的 代 





Hadoop 上 运行 ， 所 以 不 能 为 每 个 

















下 面 两 个 语句 (原因 和 前 一 个 注意 


事项 相 





FileInputFormat.setInputPaths (conf, new Path (args[0]) ) ; 
FileOutputFormat.setOutputPath (conf, new Path (args[1]) ); 
新 API 
FileInputFormat.addInputPath (job, new Path (otherArgs[0]) ) ; 
FileOutputFormat.setOutputPath (job, new 

Path (otherArgs[1])); 


oO OT 
MapReduce 程 序 必须 处 于 一 个 Java 源 文件 内 ， 它 不 支持 引用 其 他 文件 的 类 。 也 就 是 说 必 
须 把 Map、Reduce、Combine 等 类 写 到 一 个 文件 内 。 





























平台 对 同时 运行 的 MapReduce 程 序数 量 有 限制 。 因 为 系统 资源 有 限 ， 而 Hadoop 平 台 及 
MapReduce 程 序 在 处 理 少量 数据 时 的 表现 并 不 是 很 好 (即使 运行 少量 数据 ，WordCount 程 序 

也 需要 花费 20 多 秒 的 时 间 ) ， 所 以 需要 用 户 耐 心 等 待 提交 程序 的 检测 结果 ， 而 且 不 要 同时 提 
交 多 个 程序 ， 以 免 占 用 过 多 的 平台 资源 。 





















































AS 


为 MapReduce 的 入 门 
Hadoop R AHWA 


A 
E 





本 附录 主要 介绍 了 云 计算 在 线 检测 平台 。 平 台 以 Hadoop 集 群 作为 并 行程 序 的 运行 环境 ， 


























顾 实战 和 理论 的 训练 ， 使 其 初步 掌握 MapReduce 框 架 和 














识 ， 同 时 具有 使 用 MapReduce 并 行 化 解决 实际 问题 的 能 
































bh 介绍 了 平台 的 各 个 组 成 部 分 及 其 功能 。 平 台 经 过 升级 之 后 主要 包括 前 
户 接口 、 后 台 程序 运行 和 代码 过 滤 模 块 。 前 台 主要 包括 用 户 完 全 服务 、 实 例 编程 练习 、 























分 布 式 系统 理论 知识 测试 、 帮 助 功能 。 前 台 主 要 完成 与 用 户 的 交互 和 用 户 服务 的 功能 。 后 台 
主要 包括 Tomcat 服 务 器 、My SQL 数据 库 、Hadoop 分 布 式 环境 、Shel 文 要 ， 它 为 前 台 功 能 提 


供 支持 。 代 码 过 滤 


了 
存 


Hadoop 上 运行 ， 然 后 分 析 并 














模块 主要 包括 非 MapReduce 合 理 程序 过 滤 和 雷同 代码 过 滤 ， 这 一 模块 规范 


















































户 代 码 、 启 动 Shell 调 











规范 。 接 着 又 介绍 了 用 户 代码 的 检测 流程 ， 主 要 是 用 户 提交 之 后 网 页 保 
日 户 提交 代码 进行 代码 预 处 理 、 预 处 理 成 功 后 代码 会 提交 到 












































HE o 


息 、 提 交代 码 、 理 论 测试 等 。 同 时 





























户 程序 执行 的 结果 ， 最 后 将 用 户 的 结果 信息 显示 在 前 台 界 























用 进行 了 介绍 ， 主 要 是 一 些 功能 使 用 的 举例 ， 比 如 注册 更 新 信 
本 节 还 介绍 了 用 户 代 码 运 行 之 后 返回 的 各 个 结果 所 表示 的 






























































户 补充 MapReduce 编 程 框 架 和 Hadoop 分 布 式 系统 的 理论 


MapReduce 框 架 解决 实际 问题 的 能 力 ， 是 MapReduce 入 门 者 不 

















附录 B ”Hadoop 安 装 、 运 行 与 使 用 说 明 





本 章 内 


oY 


Hadoop 安 装 


Hadoop 启 动 

















Hadoop 使 














在 本 书 中 ， 关 于 Hadoop 的 安装 、 运 行 和 使 用 都 已 有 介绍 ， 但 由 于 章节 内 容 的 要 求 ， 并 没 
有 组 织 在 一 起 。 为 了 方便 大 家 直接 学 习 安装 、 运 行 和 使 用 Hadoop， 从 读者 实际 实践 的 需求 出 
发 ， 本 书 第 二 版 附加 本 附录 ， 将 Hadoop 的 安装 、 运 行 和 使 用 结合 起 来 系统 地 呈现 给 读者 〈 安 
装 采用 最 小 可 用 配置 ) 。 为 了 统一 ， 本 附录 关于 Hadoop 的 安装 和 使 用 均 基 于 Ubuntu 11.10 
Linux 操 作 系 统 ，1.0.1 版 本 的 Hadoop 和 1.6 版 本 的 JDK。 











































































































B.1 Hadoop 安 装 
B.1.1 JDK 238 


安装 JDK 具 体 步骤 如 下 。 
(1) 下 载 安 装 JDK 


确保 可 以 连接 到 互联 网 ， 从 http: //www.oracle.com/technetworkjava/javase/downloads 页 
面 下 载 JDK 安 装 包 (文件 名 类 似 jdk-***-linux-i586.bin， 不 建议 安装 1.7 版 本 ， 因 为 并 不 是 所 有 
软件 都 支持 1.7) 到 JDK 安 装 目 录 (本章 假 设 jdk 安 装 目 录 均 为 /usr/libijvm/jdk)》。 




















(2) 手动 安装 JDK 





在 终端 下 进入 JDK 安 装 目录 ， 并 输入 命令 : 





[= | 
sudo chmod ut+x jdk-***-linux-i586.bin 


Èe 
修改 完 权 限 之 后 就 可 以 进行 安装 ， 在 终端 输入 命令 : 


和 
sudo-s./jdk-***-linux-i586.bin 
一 


安装 结束 之 后 就 开始 配置 环境 变量 。 
(3) 配置 环境 变量 


输入 命令 : 


= = = = 
sudo gedit/etc/profile 
P= = 二 == 


输入 密码 ， 打 开 profile 文 件 。 


在 文件 最 下 面 输入 如 下 内 容 : 


= 
#set Java Environment 
export JAVA_HOME=/usr/lib/jvm/jdk 
export CLASSPATH=".: $JAVA_HOME/lib: $CLASSPATH" 
export PATH="$JAVA_HOME/: $PATH" 


E 


这 一 步 的 意义 是 配置 环境 变量 ， 使 你 的 系统 可 以 找到 JDK。 
(4) 验证 JDK 是 否 安装 成 功 

输入 命令 : 

java-version 


会 出 现 如 下 JDK 的 版 本 信息 : 


| 
java version"1.6.0_ 22" 
Java (TM) SE Runtime Environment (build 1.6.0 _22-b04) 
Java HotSpot (TM) Client VM (build 17.1-b03, mixed mode, 
sharing) 


一 





如 果 出 现 上 述 JDK 版 本 信息 ， 说 明 当 前 安装 的 JDK 并 未 设置 成 Ubuntu 系统 默认 的 JDK， 
接 下 来 还 需要 手动 将 安装 的 JDK 设 置 成 系统 默认 的 JDK。 














(S) 4 





动 设置 系统 默认 JDK 


在 终端 依次 输入 命令 : 


== = = = == = = = 

sudo update-alternatives--install/usr/bin/java 
java/usr/lib/jvm/jdk/bin/java 300 

sudo update-alternatives--install/usr/bin/javac 
javac/usr/lib/jvm/jdk/bin/javac 300 

sudo update-alternatives--config java 


和 


接 下 来 输入 java-version 就 可 以 看 到 JDK 安 装 的 版 本 信息 。 
B.1.2 SSH 安 装 
在 终端 输入 下 面 的 命令 : 


ssh-version 


如 果 出 现 类 似 “OpenSSH_5.1pl Debian-6ubuntu2，OpenSSL 0.9.8g 19 Oct 2007” 的 字符 
串 ， 表 示 SSH 已 安装 。 如 果 没 有 输入 下 面 的 命令 进行 安装 : 





| 
sudo apt-get install ssh 


ee 
然后 再 依次 输入 以 下 命令 完成 本 机 的 免 密码 配置 : 


一 
ssh-keygen-t dsa-P''-f~/.ssh/id_dsa 
cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys 


二 一 


B.1.3 Hadoop 安 装 








Hadoop 有 三 种 运行 方式 : 单 节 点 方式 、 单 机 伪 分 布 方式 与 集群 方式 。 前 两 种 方式 并 不 能 
体现 云 计 算 的 优势 ， 但 是 便于 程序 的 测试 与 调试 。 





在 安装 Hadoop 之 前 ， 先 从 Hadoop 官 方 网 站 : 
http://www. apache.org/dy n/closer.cgi/Hadoop/core/ 


下 载 hadoop-1.0.1.tar.gz 并 将 其 解压 ， 本 文 往 下 都 默认 Hadoop 解 压 在 home/u/ 目 录 下 。 





(1) 单 节点 方式 安装 


安装 单 节点 的 Hadoop 无 须 配 置 ， 在 这 种 方式 下 ，Hadoop 被 认为 是 一 个 单独 的 Java 进 程 ， 








这 种 方式 经 常用 来 调试 。 








D 单机 伪 分 布 方式 安装 








伪 分 布 式 的 Hadoop 是 只 有 一 个 节点 的 集群 ， 在 这 个 集群 中 ， 这 个 节点 既是 master， 也 是 
slave; 既是 NameNode 也 是 DataNode; 既是 JobTracker， 也 是 TaskTracker。 

















配置 伪 分 布 的 Hadoop 需 要 修改 以 下 几 个 文件 (具体 修改 内 容 的 含义 请 参考 第 二 章 ): 


进入 Hadoop 目 录 下 conf 目 录 ， 在 hadoop-env.sh 中 添加 JAVA 安 装 目 录 : 





ee | 
export JAVA_HOME=/usr/lib/jvm/jdk 
修改 core-site.xml 内 容 如 下 : 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 
<property> 
<name>fs.default.name</name> 
<value>hdfs: //localhost: 9000</value> 
</property> 
</configuration> 
—_—_——— | 


修改 hdfs-site.xml 内 容 如 下 : 


一 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
</configuration> 
修改 mapred-site.xm1l 内 容 如 下 : 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 
<property> 
<name>mapred.job.tracker</name> 
<value>localhost: 9001</value> 
</property> 


</configuration> 
— | 














上 面 文件 都 配置 结束 之 后 ，Hadoop 的 安装 配置 也 就 完成 了 。 
(3) 集群 方式 安装 


这 里 以 安装 三 台 主机 的 小 集群 为 例 为 读者 呈现 Hadoop 的 集群 安装 。 三 台 主机 的 IP 地 址 和 
对 应 角色 安排 如 下 表 : 








表 B-1 Hadoop 集群 IP 及 角色 分 配 表 





运行 进程 


namonode,jobtracker 


二 机 名 


master 


1P 地 址 集群 角色 


10.37.128.2 | master 

















10.37.128.3 | slave datanode,tasktracker slavel 











datanode.tasktracker slave2 





10.37.1284 slave 





安装 的 具体 步骤 如 下 : 




















1) 在 三 台 主机 上 创建 相同 的 用 户 ， 以 便 Hadoop 启 动 过 程 中 的 通信 。 参 考 本 附录 中 JDK 
和 SSH 的 安装 ， 在 每 台 主机 上 安装 JDK 和 SSH， 并 配置 环境 变量 。 














2) 在 每 台 主 机 上 配置 主机 名 和 IP 地 址 。 打 开 每 个 主机 的 /etc/hosts 文 件 ， 输 入 内 容 : 


[| 
127.0.0.1 localhost 
10.37.128.2 master 
10.37.128.3 slavel 
10.37.128.4 slave2 


ee | 














需要 注意 的 是 ， 应 删除 此 文件 中 其 他 无 用 信息 ， 防 止 Hadoop 集 群 启动 时 slave 无 法 找到 
master 准 确 的 IP 地 址 进行 通信 ， 最 终 导 致 slave 上 的 进程 虽然 启动 但 无 法 和 master 上 的 进程 进 
行 通信 。 

















接 下 来 配置 每 台 主 机 上 的 /etc/hostname 文 件 ， 在 文件 中 输入 对 应 的 主机 名 。 





3) 配置 master 免 密码 登录 slave， 将 master 的 密 钥 文件 复制 到 各 个 slave 主 机 的 .ssh 文 件 即 
可 。 在 master 主 机 的 终端 下 输入 命令 : 


[| 
scp~/.ssh/authorized_keys slavel: ~/.ssh/ 
scp~/.ssh/authorized_keys slave2: ~/.ssh/ 


ee 

















命令 完成 之 后 可 以 使 用 ssh slave1 和 ssh slave2 来 测试 是 否 配 置 成 功 。 





4) 修改 Hadoop 配 置 文件 内 容 。 


在 每 台 主 机 上 进入 Hadoop 安 装 目录 ， 向 conffhadoop-envsh 文 件 中 添加 JDK 安 装 目录 : 





export JAVA_HOME=/usr/lib/j vm/j dk 


将 conf/core-site.xml 文 件 修改 成 : 


3 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl1"?> 
<configuration> 
<property> 
<name>fs.default.name</name> 
<value>hdfs: //master: 9000</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/home/u/tmp</value> 
</property> 
</configuration> 


SS] 
将 conffhdfs-site.xml 文 件 修改 成 : 


Â 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?> 
<configuration> 
<property> 
<name>dfs.replication</name> 
<value>2</value> 
</property> 


</configuration> 
————_—_—_—_—_—_—LL_—_—E=EH_l—_—L_[]—!—!S--—————=—=E=_== 


将 conffmapred-site.xml 文 件 修改 成 : 


| 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl"href="configuration.xsl1"?> 
<configuration> 
<property> 
<name>mapred.job.tracker</name> 
<value>master: 9001</value> 
</property> 
</configuration> 
eee 


将 conf/masters 文 件 修改 成 : 


5 
master 


E 
将 conffslaves 文 件 修改 成 〈 注 意 每 行 只 能 有 一 个 主机 名 ) + 


SSS 
slavel 
slave2 


二 一 





B.2 ”Hadoop 启 动 


在 第 一 次 启动 Hadoop 时 ， 需 要 格式 化 Hadoop 的 HDFS， 命 令 如 下 : 


二 一 
bin/Hadoop namenode-format 


Eaa | 
接 下 来 启动 Hadoop， 命 令 如 下 : 


二 
bin/start-all.sh 


| 

启动 之 后 ， 可 以 通过 http: /master: 50070, http: //master: 50030 这 两 个 页 面 查看 集群 
的 状态 。 需 要 注意 的 是 ， 由 于 启动 之 初 集群 处 理 安 全 模式 ， 所 以 可 能 看 到 活跃 节点 或 者 
TaskTracker 进 程 都 为 0。 等 集群 离开 安全 模式 之 后 ， 就 会 恢复 正常 。 




















B.3 Hadoop 使 








B.3.1 命令 行 管理 Hadoop 集 群 





























在 使 用 Hadoop 时 ， 最 常用 的 就 是 使 用 命令 行 来 管理 HDFS， 可 以 上 传 下 载 文件 ， 管 理 集 
群 节点 ， 查 看 集群 状态 ， 运 行 指定 进程 等 ， 命 令 的 运行 格式 如 下 : 























So 
bin/hadoop command[genericOptions] [commandOptions] 
| 





这 里 以 运行 文件 系统 工具 的 几 个 简单 命令 为 例 进行 说 明 ， 有 关 命 令 行 管理 集群 的 详细 内 
容 请 参见 本 书 第 九 童 。 


1 
bin/hadoop fs-ls hdfs_path// 查 看 HDFS 目 录 下 的 文件 和 子 目 录 
bin/hadoop fs-mkdir hdfs_path// 在 HDFS 上 创建 文件 夹 
bin/hadoop fs-rmr hdfs_path// 删 除 HDFS 上 的 文件 夹 
bin/hadoop fs-put local file hdfs_path// 将 本 地 文件 copy 到 HDFS 上 
bin/hadoop fs-get hdfs file local path// 复 制 HDFS 文 件 到 本 地 
bin/hadoop fs-cat hdfs_file// 查 看 HDFS 上 某 文 件 的 内 容 

二 一 





B.3.2 ”运行 MapReduce 框 架 程序 


本 小 车 介绍 如 何 编译 自己 编写 的 MapReduce 框 架 程序 ， 并 在 Hadoop 上 运行 。 假 设 自己 编 
写 的 程序 文件 名 为 My Mapred.java， 并 放置 在 Hadoop 安 装 目 录 下 ， 妈 /home/u/hadoop-1.0.1。 








1) 首先 在 hadoop 安 装 目 录 下 创建 MyMapred 文 件 夹 ， 然 后 编译 自己 的 程序 。 命 令 : 
一 
javac-classpath hadoop-core-1.0.1.jar: lib/commons-cli- 
1.2.jar-d MyMapred MyMapred.java 
== 8=—__ OS COI 


2) 将 编译 好 的 程序 打包 成 JAR 文 件 ， 命 令 : 


ee | 


jar-cvf MyMapred.jar-C MyMapred. 
| 


3) 在 Hadoop 上 运行 JAR 文 件 。 





在 单 节点 方式 的 Hadoop 下 ， 只 需要 在 准备 好 本 地 的 输入 文件 之 后 〈 此 处 假设 
为 /home/winput) ， 在 命令 行 输入 下 面 的 命令 就 可 以 运行 程序 (output 文 件 夹 应 不 存在 ) : 
一 


bin/hadoop jar MyMapred.jar MyMapred/home/u/input output 


二 一 


运行 结束 之 后 就 可 以 在 output 路 径 下 查看 


在 伪 分 布 方式 和 完全 分 布 方式 的 Hadoop 鲁 
为 input) ， 然 后 将 本 地 的 程序 输入 数据 文件 上 传 到 HDFS 上 的 输入 路 径 品 











=F 


RRT, MAES 


序 的 输出 结果 。 








长 群 上 创建 输入 数据 路 径 〈 此 处 
Ph， 这 两 个 步骤 需要 


使 用 的 命令 在 “命令 行 管理 Hadoop 集 群 ” 小 节 已 讲 到 ， 此 处 不 再 袭 述 。 准 备 好 输入 路 径 之 后 就 
使 用 同样 的 命令 运行 JAR 文 件 : 


| 
bin/hadoop jar MyMapred.jar MyMapred input output 
| 























目录 。 这 里 同样 需要 保证 ol 





的 input 和 output 都 是 
utput 路 径 在 HDFS 上 并 





Hadoop 集 群 上 的 路 径 ， 而 非 单 节点 下 





的 本 地 











fF 不 存在 。 运 行 结束 之 后 ， 就 可 以 使 











绍 的 命令 行 命令 来 查看 output 文 件 夹 下 的 输出 文件 名 和 输出 文件 的 内 容 。 


前 面 介 

















附录 C 使 用 DistributedCache 的 MapReduce 程 序 





本 章 内 容 


程序 场景 


详细 代码 


C.1 程序 场景 


问题 定义 : 过滤 无 意义 单词 (a、an 和 the 等 ) 之 后 的 文本 词 频 统 计 。 代 码 的 具体 做 法 
是 : 将 事先 定义 的 无 意义 单词 保存 成 文件 ， 保 存 到 HDFS 上 ， 然 后 在 程序 中 将 这 个 文件 定义 
成 作业 的 缓存 文件 。 在 Map 启 动 之 后 先 读 入 缓存 文件 ， 然 后 统计 过 滤 后 单词 的 频数 。 源 代码 
的 下 载 请 到 本 书 代码 下 载 网 址 : 

http: //datasearch.ruc.edu.cn/HadoopInAction/shiy andaima.htm1. 














C.2 详细 代码 


TNT | 

package cn.edu.ruc.cloudcomputing.book; 

import java.io.BufferedReader; 

import java.io.FileReader; 

import java.io.IOException; 

import java.net.URI; 

import java.util.HashSet; 

import java.util.StringTokenizer; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.filecache.DistributedCache; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import 
org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

import 
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 

public class AdvancedWordCount{ 

public static class TokenizerMapper 

extends Mapper<Object, Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1); 

private Text word=new Text () ; 

private HashSet<String>keyWord; 

private Path[]localFiles; 

// 此 函数 在 每 个 Map Task 启 动 之 后 立即 执行 《此 处 因 使 用 新 

//API--org.apache.hadoop.mapreduce.Mapper， 所 以 此 函数 名 是 setup 而 























// 旧 API 中 的 configure， 有 疑问 可 查看 API) 

public void setup (Context context 

) throws IOException, InterruptedException{ 
keyWord=new HashSet<String> O; 

Configuration conf=context.getConfiguration () ; 
localFiles=DistributedCache.getLocalCacheFiles (conf) ; 
// 将 缓存 文件 内 容 读 入 到 当前 Map Task 的 全 局 变量 中 
for (int i=0; i<localFiles.length; i++) { 

String aKeyWord; 

BufferedReader br=new BufferedReader (new FileReader 
(localFiles[i].toString ())); 

while ( (akeyWord=br.readLine () ) ! =null) { 
keyWord.add (aKeyWord) ; 

} 








br.close O ; 
} 


} 

// 根 据 缓存 文件 中 缓存 的 无 意义 单词 对 输入 流 进 行 过 滤 

public void map (Object key, Text value, Context context 

) throws IOException, InterruptedException{ 

StringTokenizer itr=new StringTokenizer (value.toString O ); 

while (itr.hasMoreTokens () ) { 

String aword=itr.nextToken () ; 

if (keyWord.contains (aword) ==true) 

continue; 

word.set (aword) ; 

context.write (word, one) ; 

} 

} 

} 

public static class IntSumReducer 

extends Reducer<Text, IntWritable, Text, IntWritable>{ 

private IntWritable result=new IntWritable (© ; 

public void reduce (Text key, Iterable<IntWritable>values, 

Context context 

) throws IOException, InterruptedException{ 

int sum=0; 

for (IntWritable val: values) { 

sumt=val.get O ; 

} 

result.set (sum) ; 

context.write (key, result); 

} 

} 

public static void main (String[]args) throws Exception{ 

Configuration conf=new Configuration () ; 

// 将 HEDFS 上 的 文件 设置 成 当前 作业 的 缓存 文件 

DistributedCache.addCacheFile (new URI ("hdfs: //localhost: 
9000/user/ubuntu/ 

cachefile/KeyWord#KeyWord") , conf) ; 

Job job=new Job (conf, "advanced word count") ; 

job.setJarByClass (AdvancedWordCount.class) ; 

job.setMapperClass (TokenizerMapper.class) ; 

job.setCombinerClass (IntSumReducer.class) ; 

job.setReducerClass (IntSumReducer.class) ; 

job.setOutputKeyClass (Text.class) ; 

job.setOutputValueClass (IntWritable.class) ; 

FileInputFormat.addInputPath (job, new Path ("input") ) ; 

FileOutputFormat.setOutputPath (job, new Path ("output") ) ; 

System.exit (job.waitForCompletion (true) ?0: 1); 

} 














附录 D 使 用 ChainMapper 和 ChainReducer 的 MapReduce 程 序 











本 章 内 容 


程序 场景 


详细 代码 


D.1 程序 场景 


问题 定义 : 过 滤 无 意义 单词 (a、an 和 the 等 ) 之 后 的 文本 词 频 统计 。 代 码 的 具体 做 法 : 
使 用 两 个 Map 和 一 个 Reduce， 第 一 个 Map 使 用 无 意义 单词 数组 对 输入 流 进行 过 滤 ， 第 二 个 
Map 将 过 滤 后 的 单词 加 上 出 现 一 次 的 标签 之 后 输出 ， 最 后 一 个 过 程 是 Reduce， 对 单词 出 现 次 
数 进行 合计 ， 并 输出 结果 。 需 要 注意 的 是 ChainMapper 和 ChainReducer 并 不 支持 新 的 Mapper 
和 Reducer API《〈 代 码 中 也 有 说 明 ) ， 所 以 这 个 程序 中 使 用 的 API 都 是 旧 的 API《〈 在 1.0.1 上 运 
行 通过 ) 。 源 代码 的 下 载 请 到 本 书 代 码 下 载 网 址 : 
http: //datasearch.ruc.edu.cn/HadoopInAction/shiy andaima.htm1. 

































































D.2 详细 代码 


[| 

package cn.edu.ruc.cloudcomputing.book; 

import java.io.IOException; 

import java.util.HashSet; 

import java.util.Iterator; 

import java.util.StringTokenizer; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapred.FileInputFormat; 

import org.apache.hadoop.mapred.FileOutputFormat; 

import org.apache.hadoop.mapred.JobClient; 

import org.apache.hadoop.mapred.JobConf; 

import org.apache.hadoop.mapred.MapReduceBase; 

import org.apache.hadoop.mapred.Mapper; 

import org.apache.hadoop.mapred.OutputCollector; 

import org.apache.hadoop.mapred.Reducer; 

import org.apache.hadoop.mapred.Reporter; 

import org.apache.hadoop.mapred.TextInputFormat; 

import org.apache.hadoop.mapred.TextOutputFormat; 

import org.apache.hadoop.mapred.lib.ChainMapper; 

import org.apache.hadoop.mapred.lib.ChainReducer; 

public class ChainWordCount { 

public static class FilterMapper extends MapReduceBase 
implements 

Mapper<LongWritable, Text, Text, Text>{ 

private final static String[]StopWord= 

{"a", "an", "the", "of", "in", "and", "to", "at", "with", "as", "4 

private HashSet<String>StopWordSet; 

// 此 函数 实现 Mapper 接 口中 的 函数 ， 每 个 Map Task 启 动 之 后 立即 执行 (此 处 因 使 

// 旧 API--org.apache.hadoop.mapred.Mapper， 所 以 此 函数 名 是 configure 
而 不 是 

// 新 API 中 的 setup， 使 用 旧 API 是 因为 chainMapper 和 ChainReducer 不 支持 新 
Mapper//API. # 

疑问 可 查看 API) 

public void configure (JobConf job) { 

StopWordSet=new HashSet<String> ©; 

for (int i=0; i<StopWord.length; i++) { 

StopWordSet.add (StopWord[i]); 

} 


} 
// 将 输入 流 中 的 无 意义 单词 过 滤 掉 
public void map (LongWritable key, Text value, 






























































OutputCollector<Text, Text> 

collector, 

Reporter reportter) throws IOException{ 

StringTokenizer itr=new StringTokenizer (value.toString O) ) 

while (itr.hasMoreTokens () ) { 

String aword=itr.nextToken () ; 

if (StopWordSet.contains (aword) ==true) 

continue; 

collector.collect (new Text (aword) , new Text ("") ) ; 

} 

} 

} 

public static class TokenizerMapper extends MapReduceBase 
implements 

Mapper<Text, Text, Text, IntWritable>{ 

private final static IntWritable one=new IntWritable (1) ; 

public void map (Text key, Text value, OutputCollector<Text, 
IntWritable> 

collector, Reporter reportter) throws IOException{ 

collector.collect (key, one) ; 

} 

} 

public static class IntSumReducer extends MapReduceBase 
implements 

Reducer<Text, IntWritable, Text, IntWritable>{ 

private IntWritable result=new IntWritable () ; 

public void reduce (Text key, Iterator<IntWritable>values, 
OutputCollector 

<Text, IntWritable>collector, Reporter reportter) throws 
IOException{ 

int sum=0; 

while (values.hasNext () ) { 

sum+=values.next O .get O; 

} 

result.set (sum) ; 

collector.collect (key, result) ; 

} 

} 

public static void main (String[]args) throws Exception{ 

JobConf job=new JobConf (ChainWordCount.class) ; 

job.setJobName ("Chain Map Reduce") ; 

job.setJarByClass (ChainWordCount.class) ; 

job.setInputFormat (TextInputFormat.class) ; 

job.setOutputFormat (TextOutputFormat.class) ; 

// 将 第 一 个 过 滤 单 词 的 4ap 加 入 作业 流 

JobConf maplConf=new JobConf (false) ; 

ChainMapper.addMapper (job, FilterMapper.class, 


LongWritable.class, 

Text.class, 

Text.class, 

Text.class, 

true, 

map1Conf) ; 

// 将 第 二 个 统计 单词 单 次 出 现 的 Map 加 入 作业 流 
JobConf map2Conf=new JobConf (false) ; 
ChainMapper.addMapper (job, 
TokenizerMapper.class, 

Text.class, 

Text.class, 

Text.class, 

IntWritable.class, 

false, 

map2Conf) ; 

// 将 合并 单词 单 次 出 现 次 数 的 Reduce 设 置 成 作业 流 唯一 的 Reduce 
JobConf reduceConf=new JobConf (false) ; 
ChainReducer.setReducer (job, 
IntSumReducer.class, 

Text.class, 

IntWritable.class, 

Text.class, 

IntWritable.class, 

false, 

reduceConf) ; 
FileInputFormat.addInputPath (job, new Path ("input") ) ; 
FileOutputFormat.setOutputPath (job, new Path ("output") ) ; 
JobClient.runJob (job) ; 

} 

} 





